跳转至

数据采集

  • 开源数据源
  • 爬虫
  • 日志
  • 传感器

爬虫

  • 工具:八爪鱼、火车采集器、搜集客等
  • 自建:Beautiful Soup4、Requests-HTML
  • 框架:Pyspider、Scrapy

解析库

  • Requests-HTML

https://requests-html.kennethreitz.org/

Requests 作者创建的 HTML Parsing for Humans,集成了 Requests、lxml、html5lib、PyQuery 等

  • Beautiful Soup4

https://www.crummy.com/software/BeautifulSoup/

用于解析、提取和修改 HTML、XML 等静态网页文档的数据,轻量且高效,需要搭配 Requests 发起请求,依赖 lxml、html5lib 解析库,涉及 JS 渲染需要借助 Selenium 等。

  • lxml

唯一支持 XML 的解析器,速度快,容错能力强

  • html5lib

以浏览器方式解析文档,生成 H5 格式,容错性最好,不依赖外部扩展,但速度慢

  • PyQuery

仿照 jQuery 的 Python 实现,语法与 jQuery 几乎完全相同