WebCollector爬虫官网:https://github.com/CrawlScript/WebCollector
技术讨论群:250108697
如何将爬虫内核导入自己的项目?
1.进入爬虫官网http://crawlscript.github.io/WebCollector/,下载压缩包,解压。
2.解压后找到“webcollector-版本号-bin.zip”,解压。
3.将“webcollector-版本号-bin.zip”解压后所有的jar,导入你的项目,即可使用爬虫内核。
爬虫内核的demo
进入“webcollector-版本号-bin.zip”解压后所在的文件夹(Windows用资源管理器,Linux用命令行)。
Windows:双击start.bat
Linux:执行sh start.sh
即可看到一个简单的DEMO,这个DEMO可以爬取整站的网页(包括图片、文件、JS、CSS),并按照网站原来的文件路径存储到本地。
图中是用这个DEMO下载合肥工业大学官网上所有的网页和文件。
爬虫内核提供哪些功能?
1.一套可扩展框架。对于大多数爬虫开发者来说,需要一个稳定、易懂的框架。基于框架去做自己的爬虫。
2.爬虫所需的基本类库。
1)html源码获取(文件下载)。
2)文件操作。
3)html源码解析(抽取)。
4)线程池。
5)URL生成器(遍历器)。
6)消息机制(各组件通信)。
基本类库:
在介绍爬虫框架之前,先介绍一下基本类库。
如果您不想使用我们的爬虫框架,只是想做一个基本的爬虫或者网页信息收集产品,或者您只是想做一个简单的HTML源码获取器,可以导入WebCollector的jar包,直接调用爬虫内核提供的类库。
爬虫框架:
爬虫框架会在后续文章中详细介绍。这里只介绍它与其他爬虫框架的一些区别。
WebCollector与其他爬虫框架最大的区别在于它提供了“消息机制”和“URL生成器”。
1)消息机制:
以往的大型爬虫框架,Heritrix、Nutch、Crawler4j,都是通过插件或者重载代码的机制,去实现对爬取信息的处理(解析、保存)。WebCollector提供了一套强大的消息机制(Handler)。
例如Crawler4j,如果你需要定制爬取时对每个页面的操作,需要重载WebCrawler类中的相关函数,并且不能在运行时定制,必须在编译前就定制一个继承WebCrawler类的类,细节请看:http://code.google.com/p/crawler4j/
但是对于WebCollector,你只需要定制一个Handler
Handler gene_handler = new Handler() {
@Override
public void handleMessage(Message msg) {
Page page = (Page) msg.obj;
System.out.println(page.html);
}
};
将这个handler传给遍历器即可。
2)URL生成器:
Heritrx、Nutch、Crawler4j只提供广度遍历的网页遍历方式,而且很难通过他们自带的插件机制去修改遍历方式。所以WebCollector里提供了URL生成器(Generator),自定义URL生成器可以完成各种形式的URL遍历(尤其是对于深网爬取,如微博、动态页面)。
分享到:
相关推荐
【 java 爬虫】(csdn)————程序
源码-java网络爬虫源码 源码-java网络爬虫源码 源码-java网络爬虫源码 源码-java网络爬虫源码 源码-java网络爬虫源码 源码-java网络爬虫源码 源码-java网络爬虫源码 源码-java网络爬虫源码 源码-java网络爬虫源码 ...
Java网络爬虫(蜘蛛)源码 Java网络爬虫(蜘蛛)源码 Java网络爬虫(蜘蛛)源码 Java网络爬虫(蜘蛛)源码 Java网络爬虫(蜘蛛)源码 Java网络爬虫(蜘蛛)源码 Java网络爬虫(蜘蛛)源码 Java网络爬虫(蜘蛛)源码 Java网络爬虫...
[搜索链接]Java网络爬虫(蜘蛛)源码_zhizhu[搜索链接]Java网络爬虫(蜘蛛)源码_zhizhu[搜索链接]Java网络爬虫(蜘蛛)源码_zhizhu[搜索链接]Java网络爬虫(蜘蛛)源码_zhizhu[搜索链接]Java网络爬虫(蜘蛛)源码_zhizhu[搜索...
网络数据采集技术——Java
该院吗详细的写出lJava网络爬虫蜘蛛源码,可以很好的帮助你实现爬虫,对了解爬虫的整个过程和实现爬虫非常有用
(Java毕业设计)Java网络爬虫(蜘蛛)(Java毕业设计)Java网络爬虫(蜘蛛)(Java毕业设计)Java网络爬虫(蜘蛛)(Java毕业设计)Java网络爬虫(蜘蛛)(Java毕业设计)Java网络爬虫(蜘蛛)(Java毕业设计)Java网络爬虫(蜘蛛)(Java...
[搜索链接]Java网络爬虫(蜘蛛)源码_zhizhu[搜索链接]Java网络爬虫(蜘蛛)源码_zhizhu[搜索链接]Java网络爬虫(蜘蛛)源码_zhizhu[搜索链接]Java网络爬虫(蜘蛛)源码_zhizhu[搜索链接]Java网络爬虫(蜘蛛)源码_zhizhu[搜索...
[搜索链接]Java网络爬虫(蜘蛛)源码_zhizhu.zip[搜索链接]Java网络爬虫(蜘蛛)源码_zhizhu.zip[搜索链接]Java网络爬虫(蜘蛛)源码_zhizhu.zip[搜索链接]Java网络爬虫(蜘蛛)源码_zhizhu.zip[搜索链接]Java网络爬虫(蜘蛛)...
基于java的开发源码-Java网络爬虫(蜘蛛)源码.zip 基于java的开发源码-Java网络爬虫(蜘蛛)源码.zip 基于java的开发源码-Java网络爬虫(蜘蛛)源码.zip 基于java的开发源码-Java网络爬虫(蜘蛛)源码.zip 基于java的开发...
Java网络爬虫源代码,高分Java课程设计,计算机专业必看! Java网络爬虫源代码,高分Java课程设计,计算机专业必看! Java网络爬虫源代码,高分Java课程设计,计算机专业必看! Java网络爬虫源代码,高分Java课程...
java网络爬虫+数据库+jsp+搜索引擎.rar.rar
Linux系统、网络反爬虫、监控管理——python自动化运维.html
[搜索链接]Java网络爬虫(蜘蛛)源码_zhizhu.rar[搜索链接]Java网络爬虫(蜘蛛)源码_zhizhu.rar[搜索链接]Java网络爬虫(蜘蛛)源码_zhizhu.rar[搜索链接]Java网络爬虫(蜘蛛)源码_zhizhu.rar[搜索链接]Java网络爬虫(蜘蛛)...
简易Java网络爬虫,爬虫的目标是趣配音的web页面
WebCollector是一个无须配置、便于二次开发的JAVA爬虫框架(内核),它提供精简的的API,只需少量代码即可实现一个功能强大的爬虫。 WebCollector致力于维护一个稳定、可扩的爬虫内核,便于开发者进行灵活的二次...
Java网络爬虫简单实现.pdf