nodejs有哪些爬虫框架?

nodejs有哪些爬虫框架?下面本篇文章给大家介绍几款nodejs爬虫框架。有一定的参考价值,有需要的朋友可以参考一下,希望对大家有所帮助。

node-spider

基于nodejs的通用爬虫框架,得益于nodejs的高性能异步io,爬虫的执行效率非常高。目前版本仅支持http/https协议,可以设置header属性和cookie会话保持,暂时还不支持代理。

软件架构

该框架主要分为调度器(node-shceduler) 下载器(node-downloader) 请求(node-request) 结果(node-response) 爬虫(node-spider) 数据抽取(node-pipeline)。 程序运行时:'调度器'从爬虫抽取'请求'或者'结果',如果是'请求'交给'下载器',如果是对象则交给node-pipeline保存数据。

node-crawler

Node Crawler:强大的Node开源爬虫

目标打造成Node社区最强大和流行的爬虫/内容抽取工具库,且支持生产环境。

特性:

  • 服务端DOM和自动jQuery注入,使用Cheerio(默认)或JSDOM

  • 可配置的连接池大小和重试次数

  • Control rate limit

  • 支持设置请求队列优先级

  • forceUTF8模式可让爬虫处理字符集编码探测和转换

  • 兼容Node 4.x及以上版本

更新日志:https://github.com/bda-research/node-crawler/blob/master/CHANGELOG.md

ppspider

这是一个使用nodejs + typescript编写的web爬虫框架。

支持puppeteer爬取动态网页,支持request+cheerio爬取静态网页;

提供了任务队列管理和调度,内置过滤器,轻松实现连接去重;

拥有webUi管理界面,爬取进度一目了然;

应用运行状态可保存,重启应用可继续爬取;

框架提供了可扩展的接口实现,方便用户自定义队列,过滤器,以及worker工厂类,另外还内置了用户自定义交互界面的实现方案,实现爬取结果的实时展示;

说明:

ppspider框架使用 nodejs + typescript 编写,在使用的时候,也是采用 nodejs + typescript 编写爬虫脚本

更多nodejs相关技术文章,请访问 Node.js答疑 栏目进行学习!

以上就是nodejs有哪些爬虫框架?的详细内容,更多请关注易知道|edz.cc其它相关文章!

推荐阅读