JAVA网络爬虫WebCollector深度解析——爬虫内核

AJAXHu

浏览: 54711 次

最近访客更多访客>>

u012363178

coldg

深水蓝

wangyy

博主相关

博客

微博

相册

留言

关于我

文章分类

全部博客 (52)

社区版块

存档分类

WebCollector爬虫官网：https://github.com/CrawlScript/WebCollector

技术讨论群：250108697

如何将爬虫内核导入自己的项目？

1.进入爬虫官网http://crawlscript.github.io/WebCollector/，下载压缩包，解压。

2.解压后找到“webcollector-版本号-bin.zip”,解压。

3.将“webcollector-版本号-bin.zip”解压后所有的jar，导入你的项目，即可使用爬虫内核。

爬虫内核的demo

进入“webcollector-版本号-bin.zip”解压后所在的文件夹（Windows用资源管理器，Linux用命令行）。

Windows:双击start.bat

Linux:执行sh start.sh

即可看到一个简单的DEMO，这个DEMO可以爬取整站的网页（包括图片、文件、JS、CSS)，并按照网站原来的文件路径存储到本地。

图中是用这个DEMO下载合肥工业大学官网上所有的网页和文件。

爬虫内核提供哪些功能？

1.一套可扩展框架。对于大多数爬虫开发者来说，需要一个稳定、易懂的框架。基于框架去做自己的爬虫。

2.爬虫所需的基本类库。

1）html源码获取（文件下载）。

2）文件操作。

3）html源码解析（抽取）。

4）线程池。

5）URL生成器（遍历器）。

6）消息机制（各组件通信）。

基本类库：

在介绍爬虫框架之前，先介绍一下基本类库。

如果您不想使用我们的爬虫框架，只是想做一个基本的爬虫或者网页信息收集产品，或者您只是想做一个简单的HTML源码获取器，可以导入WebCollector的jar包，直接调用爬虫内核提供的类库。

爬虫框架：

爬虫框架会在后续文章中详细介绍。这里只介绍它与其他爬虫框架的一些区别。

WebCollector与其他爬虫框架最大的区别在于它提供了“消息机制”和“URL生成器”。

1）消息机制：

以往的大型爬虫框架，Heritrix、Nutch、Crawler4j，都是通过插件或者重载代码的机制，去实现对爬取信息的处理（解析、保存）。WebCollector提供了一套强大的消息机制（Handler)。

例如Crawler4j,如果你需要定制爬取时对每个页面的操作，需要重载WebCrawler类中的相关函数，并且不能在运行时定制，必须在编译前就定制一个继承WebCrawler类的类，细节请看：http://code.google.com/p/crawler4j/

但是对于WebCollector，你只需要定制一个Handler

        Handler gene_handler = new Handler() {
            @Override
            public void handleMessage(Message msg) {
                Page page = (Page) msg.obj;
                System.out.println(page.html);
            }
        };

将这个handler传给遍历器即可。

2）URL生成器：

Heritrx、Nutch、Crawler4j只提供广度遍历的网页遍历方式，而且很难通过他们自带的插件机制去修改遍历方式。所以WebCollector里提供了URL生成器（Generator），自定义URL生成器可以完成各种形式的URL遍历（尤其是对于深网爬取，如微博、动态页面）。

分享到：

用WebCollector制作一个爬取《知乎》并进行 ... | JAVA开源爬虫，WebCollector,简单易用，有 ...

2014-07-21 10:43
浏览 918
评论(0)
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论