跳转至

数据分析

  • numpy 是Python的数值计算扩展,专门用来处理矩阵,运算效率比列表更高效
  • pandas 是基于numpy的数据分析工具,能更方便的操作大型数据集
  • scipy 是基于numpy的科学计算包,包括统计、线性代数等工具

数据采集

  • 开源数据源
  • 日志采集
  • 传感器
  • 爬虫抓取

爬虫

  • 傻瓜式:八爪鱼、火车采集器、搜集客等
  • 框架:Pyspider(简单)、Scrapy(高级)
  • 自建

数据挖掘

  • 基本流程
  • 十大算法
  • 数学原理

数据可视化