区块链资讯数据爬虫规划

  1. 使用python下的Scrapy框架,实现对现有区块链资讯网站(巴比特)新闻快讯、交易所网站实时价格等数据爬取后进行本地文件格式保存。
  2. 通过mongodb数据库实现文件储存(相比Redis,mongodb可以进行表关联的查询,且适合大数据文件存储)
  3. 配置scrapy-redis搭建分布式爬虫,对数据进行并行的爬取。
  4. hadoop框架 (脏数据清洗 打标签)

爬虫系统功能实现

1.爬虫功能:

  • 爬取策略的设计
    服务端对网页链接的爬取,区分目录页和内容详情的数据爬取。
  • 内容数据字段的设计

在数据抓取程序中定义抓取网页的规则和使用Xpath提取字段数据的方法等,在Xpath中有其中类型的几点:元素、属性、文本、命名空间、处理指令、注释和文档节点。

  • 增量爬取
  • 请求去重
    去重与增量爬取,能够减少服务器的压力以及保证数据的准确性。

2.中间件:

  • 爬虫防屏蔽中间件(防止爬虫被屏蔽)
  1. 模拟不同的浏览器行为
  2. 以一定的频率更换代理服务器和网关
  3. 降低爬虫爬取网页的频率
  4. 禁用cookie。
  5. 人工打码
  • 网页非200状态处理
  • 爬虫下载异常处理

3.数据存储:

  • 抓取字段设计
  • 数据存储
    负责将服务端爬取解析的页面进行存储。使用Mongodb对数据进行存储。

4.数据可视化

文本展示-> api结构前端展示