node-spider
基于nodejs的通用爬虫框架,得益于nodejs的高性能异步io,爬虫的执行效率非常高。目前版本仅支持http/https协议,可以设置header属性和cookie会话保持,暂时还不支持代理。
软件架构
该框架主要分为调度器(node-shceduler) 下载器(node-downloader) 请求(node-request) 结果(node-response) 爬虫(node-spider) 数据抽取(node-pipeline)。 程序运行时:'调度器'从爬虫抽取'请求'或者'结果',如果是'请求'交给'下载器',如果是对象则交给node-pipeline保存数据。
node-crawler
Node Crawler:强大的Node开源爬虫
目标打造成Node社区最强大和流行的爬虫/内容抽取工具库,且支持生产环境。
特性:
服务端DOM和自动jQuery注入,使用Cheerio(默认)或JSDOM
可配置的连接池大小和重试次数
Control rate limit
支持设置请求队列优先级
forceUTF8模式可让爬虫处理字符集编码探测和转换
兼容Node 4.x及以上版本
更新日志:https://github.com/bda-research/node-crawler/blob/master/CHANGELOG.md
ppspider
这是一个使用nodejs + typescript编写的web爬虫框架。
支持puppeteer爬取动态网页,支持request+cheerio爬取静态网页;
提供了任务队列管理和调度,内置过滤器,轻松实现连接去重;
拥有webUi管理界面,爬取进度一目了然;
应用运行状态可保存,重启应用可继续爬取;
框架提供了可扩展的接口实现,方便用户自定义队列,过滤器,以及worker工厂类,另外还内置了用户自定义交互界面的实现方案,实现爬取结果的实时展示;
说明:
ppspider框架使用 nodejs + typescript 编写,在使用的时候,也是采用 nodejs + typescript 编写爬虫脚本
更多nodejs相关技术文章,请访问 Node.js答疑 栏目进行学习!
以上就是nodejs有哪些爬虫框架?的详细内容,更多请关注易知道|edz.cc其它相关文章!