`
AJAXHu
  • 浏览: 54711 次
文章分类
社区版块
存档分类
最新评论

JAVA网络爬虫WebCollector深度解析——爬虫内核

 
阅读更多

WebCollector爬虫官网:https://github.com/CrawlScript/WebCollector

技术讨论群:250108697


如何将爬虫内核导入自己的项目?

1.进入爬虫官网http://crawlscript.github.io/WebCollector/,下载压缩包,解压。

2.解压后找到“webcollector-版本号-bin.zip”,解压。

3.将“webcollector-版本号-bin.zip”解压后所有的jar,导入你的项目,即可使用爬虫内核。


爬虫内核的demo

进入“webcollector-版本号-bin.zip”解压后所在的文件夹(Windows用资源管理器,Linux用命令行)。

Windows:双击start.bat

Linux:执行sh start.sh

即可看到一个简单的DEMO,这个DEMO可以爬取整站的网页(包括图片、文件、JS、CSS),并按照网站原来的文件路径存储到本地。

图中是用这个DEMO下载合肥工业大学官网上所有的网页和文件。





爬虫内核提供哪些功能?

1.一套可扩展框架。对于大多数爬虫开发者来说,需要一个稳定、易懂的框架。基于框架去做自己的爬虫。

2.爬虫所需的基本类库。

1)html源码获取(文件下载)。

2)文件操作。

3)html源码解析(抽取)。

4)线程池。

5)URL生成器(遍历器)。

6)消息机制(各组件通信)。


基本类库:

在介绍爬虫框架之前,先介绍一下基本类库。

如果您不想使用我们的爬虫框架,只是想做一个基本的爬虫或者网页信息收集产品,或者您只是想做一个简单的HTML源码获取器,可以导入WebCollector的jar包,直接调用爬虫内核提供的类库。



爬虫框架:

爬虫框架会在后续文章中详细介绍。这里只介绍它与其他爬虫框架的一些区别。

WebCollector与其他爬虫框架最大的区别在于它提供了“消息机制”和“URL生成器”。

1)消息机制:

以往的大型爬虫框架,Heritrix、Nutch、Crawler4j,都是通过插件或者重载代码的机制,去实现对爬取信息的处理(解析、保存)。WebCollector提供了一套强大的消息机制(Handler)。

例如Crawler4j,如果你需要定制爬取时对每个页面的操作,需要重载WebCrawler类中的相关函数,并且不能在运行时定制,必须在编译前就定制一个继承WebCrawler类的类,细节请看:http://code.google.com/p/crawler4j/

但是对于WebCollector,你只需要定制一个Handler

        Handler gene_handler = new Handler() {
            @Override
            public void handleMessage(Message msg) {
                Page page = (Page) msg.obj;
                System.out.println(page.html);
            }
        };
将这个handler传给遍历器即可。

2)URL生成器:

Heritrx、Nutch、Crawler4j只提供广度遍历的网页遍历方式,而且很难通过他们自带的插件机制去修改遍历方式。所以WebCollector里提供了URL生成器(Generator),自定义URL生成器可以完成各种形式的URL遍历(尤其是对于深网爬取,如微博、动态页面)。


分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics