网络爬虫(又被称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁,自动索引,模拟程序或者蠕虫。
相信很多人都用JAVA或者C++写过网络爬虫,但是都存在代码过于复杂、爬虫难以维护的问题。也有很多人使用脚本语言编写过网络爬虫,但是这些脚本很多时候不妨变嵌入大型的系统,或者语法怪异,难以上手。
我们教程中选择了一门适合中小型工程的爬虫脚本语言作为爬虫的编写语言:CrawlScript。这门脚本语言底层是用JAVA实现的,可以很方便地被其他JAVA程序调用。之所以选择这门语言,还有一个重要的原因,CrawlScript脚本遵循javascript的规范,只要学过javascript的人,可以在几分钟内轻松上手。不多做介绍了,开始详细的教程。
首先,下载CrawlScript的jar包:CrawlScript beta 0.3版及demo下载。
下载完成后,解压。找到CrawlScript-bin文件夹。
下面我们来介绍如果编写和运行CrawlScript。
CrawlScript Shell是编写和运行CrawlScript最常用的方式之一,运行方式如下:
1.用命令行进入工程里的CrawlScript-bin文件夹.
2.在命令行输入java -jar crawlscript.jar即可进入crawlscript的shell.
3.开始编写CrawlScript脚本,回车运行.
例如:
1)输入doc=$("http://www.baidu.com") ,回车,可看到百度首页的所有文字。
2)继续输入doc.a() ,回车,即可看到百度首页的所有超链接中的文字.
3)继续输入write("log.txt",doc.a()); ,回车,查看CrawlScript-bin文件夹,可发现生成了log.txt文件,里面是百度首页所有超链接的文本信息.
运行CrawlScript脚本文件有两种方式:
1.运行CrawlScript Shell,输入命令load(文件路径).
例如:在CrawlScript-bin文件夹下有一个demo.js,进入CrawlScript Shell后,输入load("demo.js")即可运行demo.js这个脚本。
2.在CrawlScript-bin目录下,运行命令: java -jar crawlscript.jar 文件路径.
例如:在CrawlScript-bin文件夹下有一个demo.js,用命令行进入CrawlScript-bin目录,运行命令:java -jar crawlscript.jar demo.js
注:demo.js是一个完整的爬虫,可以爬取新华网所有的新闻正文(放到CrawlScript-bin/download文件夹中),由于爬虫初始化,启动需要1分钟.
下一课,我们介绍CrawlScript的编写语法。
分享到:
相关推荐
自己动手写网络爬虫自己动手写网络爬虫自己动手写网络爬虫
自己动手写网络爬虫(附光盘) 《自己动手写网络爬虫(附光盘)》介绍了网络爬虫开发中的关键问题与java实现。主要包括从互联网获取信息与提取信息和对web信息挖掘等内容。《自己动手写网络爬虫(附光盘)》在介绍...
自己动手写网络爬虫光盘文件1~4章 自己动手写网络爬虫光盘文件1~4章
自己动手写网络爬虫 第二部分 自己动手写网络爬虫源码2-2.zip
自己动手写网络爬虫光盘文件10章 自己动手写网络爬虫光盘文件10章
自己动手写网络爬虫PDF,源码,包含所需jar,自己测试了一下可以用!
《自己动手写网络爬虫》 配书光盘 版权所有,侵权必究 2010年5月 _______________________________________________________________________ 一、光盘内容 本光盘是《自己动手写网络爬虫》一书的配书...
《自己动手写网络爬虫》PDF书及源码,罗刚著作,很有实践价值。
自己动手写网络爬虫pdf+源代码
自己动手写网络爬虫PDF+源码,自己动手写网络爬虫介绍了网络爬虫开发中的关键技术与java实现,以及提供源码以供参考。
自己动手写网络爬虫(修订版) 源代码,网盘下载url:链接:https://pan.baidu.com/s/1dEP3WE9 密码:*****
自己动手写网络爬虫,这本书的全版在网上是很难找的,真正的全版哦~
自己动手写网络爬虫.ptf(高清)
《自己动手写网络爬虫》作者:罗刚,介绍了网络爬虫开发中的关键问题与Java实现。主要包括从互联网获取信息与提取信息和对Web信息挖掘等内容。《自己动手写网络爬虫》在介绍基本原理的同时注重辅以具体代码实现来...
自己动手写网络爬虫PDF自己动手写网络爬虫PDF自己动手写网络爬虫PDF自己动手写网络爬虫PDF自己动手写网络爬虫PDF
自己动手写网络爬虫.罗刚_王振东.扫描版
<自己动手写网络爬虫>图书+光盘文件,更全更省心
Python项目案例开发从入门到实战源代码第5章 爬虫应用——校园网搜索引擎
《自己动手写网络爬虫》,罗刚,王振东 编著,清华大学出版社。全书源码(除了第五章,因为第五章太大了)
自己动手写网络爬虫 光盘 源码 10章 DocCluster kMeans实现的文档聚类 SVM 支持向量机实现的文档分类 下载后可以用eclipse直接导入,包含运行所需的jar包