跳转至

ZuoRight

数据采集

数据采集¶

开源数据源
爬虫
日志
传感器

爬虫¶

工具：八爪鱼、火车采集器、搜集客等
自建：Beautiful Soup4、Requests-HTML
框架：Pyspider、Scrapy

解析库¶

Requests-HTML

https://requests-html.kennethreitz.org/

Requests 作者创建的 HTML Parsing for Humans，集成了 Requests、lxml、html5lib、PyQuery 等

Beautiful Soup4

https://www.crummy.com/software/BeautifulSoup/

用于解析、提取和修改 HTML、XML 等静态网页文档的数据，轻量且高效，需要搭配 Requests 发起请求，依赖 lxml、html5lib 解析库，涉及 JS 渲染需要借助 Selenium 等。

lxml

唯一支持 XML 的解析器，速度快，容错能力强

html5lib

以浏览器方式解析文档，生成 H5 格式，容错性最好，不依赖外部扩展，但速度慢

PyQuery

仿照 jQuery 的 Python 实现，语法与 jQuery 几乎完全相同