资讯爬虫设计
区块链资讯数据爬虫规划
- 使用python下的Scrapy框架,实现对现有区块链资讯网站(巴比特)新闻快讯、交易所网站实时价格等数据爬取后进行本地文件格式保存。
- 通过mongodb数据库实现文件储存(相比Redis,mongodb可以进行表关联的查询,且适合大数据文件存储)
- 配置scrapy-redis搭建分布式爬虫,对数据进行并行的爬取。
- hadoop框架 (脏数据清洗 打标签)
爬虫系统功能实现
1.爬虫功能:
- 爬取策略的设计
服务端对网页链接的爬取,区分目录页和内容详情的数据爬取。 - 内容数据字段的设计
在数据抓取程序中定义抓取网页的规则和使用Xpath提取字段数据的方法等,在Xpath中有其中类型的几点:元素、属性、文本、命名空间、处理指令、注释和文档节点。
- 增量爬取
- 请求去重
去重与增量爬取,能够减少服务器的压力以及保证数据的准确性。
2.中间件:
- 爬虫防屏蔽中间件(防止爬虫被屏蔽)
- 模拟不同的浏览器行为
- 以一定的频率更换代理服务器和网关
- 降低爬虫爬取网页的频率
- 禁用cookie。
- 人工打码
- 网页非200状态处理
- 爬虫下载异常处理
3.数据存储:
- 抓取字段设计
- 数据存储
负责将服务端爬取解析的页面进行存储。使用Mongodb对数据进行存储。
4.数据可视化
文本展示-> api结构前端展示
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 Qin Blog!