使用WebCollector的redis插件,进行爬取。(使用redis数据库进行任务管理)
/**
* RedisCrawler是WebCollector的一个插件,将WebCollector的任务管理交
* 给redis数据库,使WebCollector可以进行海量网页的爬取
*/
public class MyCrawler extends RedisCrawler{
public MyCrawler(String tableName,String ip,int port){
super(tableName,ip,port);
}
@Override
public void visit(Page page){
System.out.println(page.getDoc().title());
}
/*运行程序前请开启redis数据库*/
public static void main(String[] args) throws Exception{
/*mytest是任务名(用于区别不同爬虫),"127.0.0.1"和6379是redis数据库的ip和端口*/
MyCrawler crawler=new MyCrawler("mytest", "127.0.0.1", 6379);
/*爬取合肥工业大学新闻网*/
crawler.addSeed("http://news.hfut.edu.cn/");
crawler.addRegex("http://news.hfut.edu.cn/.*");
/*过滤图片*/
crawler.addRegex("-.*#.*");
crawler.addRegex("-.*png.*");
crawler.addRegex("-.*jpg.*");
crawler.addRegex("-.*gif.*");
crawler.addRegex("-.*js.*");
crawler.addRegex("-.*css.*");
/*设置线程数*/
crawler.setThreads(30);
/*设置是否为断点爬取模式*/
crawler.setResumable(false);
/*开始深度为5的爬取*/
crawler.start(5);
}
}
分享到:
相关推荐
IDEA免费的REDIS插件,支持项目内搜索查看redis键值对。
php连接redis的插件 php连接redis的插件 php连接redis的插件php连接redis的插件
此插件是Redis插件,IDEA版本在2017.1--2018.2可用,建议使用正版
Jmeter-jpgc-redis插件 0.7版本(20240409)jpgc插件,完整下载,最新,解压放入文件夹中重启jmeter使用Jmeter-jpgc-redis插件 0.7版本(20240409)jpgc插件,完整下载,最新,解压放入文件夹中重启jmeter使用Jmeter...
Prometheus redis插件
intellj redis 插件,可以直接在intellj idea中直接访问redis。
自己写了一个文档,并有已经下载好的插件,里面有32位和64位的,自己选择使用,大家直接下载就可以,不用再到相关网站上下载相关插件,再次提醒大家,本文讲的是win版php环境下redis插件安装,谢谢。
redis客户端和redis绿色免安装版和redis插件,其中redis客户端是win安装版,redis插件是java开发必备插件
magento -redis 安装包
idea 或者datagrip中redis的插件 官网下载很慢,有时候下载不了,所以我通过联系官方的人要了一份
集成redis的爬虫项目。加入了redis排重
通过kettle-redis-input-plugin 插件实现kettle 可以查询redis中的数据,详细的使用方法见博客https://blog.csdn.net/ispringmw/article/details/108371012
用于Grafana的Redis插件 用于Grafana的Redis插件使用户可以连接到Redis数据库并在Grafana中构建仪表板,以轻松监视Redis和应用程序数据。 数据源可以连接到本地或云中的任何Redis数据库。 快速链接 学到更多 执照 ...
idea 连接redis可视化工具
宝塔Redis可视化插件
Iedis 在idea上集成的一个简单易用的Redis GUI插件,他可以轻松管理上百万个Key而不会阻塞服务器。 服务器列表支持同时连接多台Redis服务器,并可以轻松切换。
深度学习教学视频: Python 爬虫工程师(Redis,Python爬虫)
redis
下载此文件,将它放在项目下,通过配置,即可在项目中使用redis服务!举个例子,yii框架,我们就可将此控件下载放到相应目录下,通过完成配置,然后使用
使用scrapy,redis,mongodb实现的一个分布式网络爬虫[整理].pdf