资讯爬虫设计

发表于2017-09-19|更新于2022-09-28|Python

区块链资讯数据爬虫规划

使用python下的Scrapy框架，实现对现有区块链资讯网站（巴比特）新闻快讯、交易所网站实时价格等数据爬取后进行本地文件格式保存。
通过mongodb数据库实现文件储存（相比Redis，mongodb可以进行表关联的查询，且适合大数据文件存储）
配置scrapy-redis搭建分布式爬虫，对数据进行并行的爬取。
hadoop框架（脏数据清洗打标签）

爬虫系统功能实现

1．爬虫功能：

爬取策略的设计
服务端对网页链接的爬取，区分目录页和内容详情的数据爬取。
内容数据字段的设计

在数据抓取程序中定义抓取网页的规则和使用Xpath提取字段数据的方法等，在Xpath中有其中类型的几点:元素、属性、文本、命名空间、处理指令、注释和文档节点。

增量爬取
请求去重
去重与增量爬取，能够减少服务器的压力以及保证数据的准确性。

2．中间件：

爬虫防屏蔽中间件（防止爬虫被屏蔽）

模拟不同的浏览器行为
以一定的频率更换代理服务器和网关
降低爬虫爬取网页的频率
禁用cookie。
人工打码

网页非200状态处理
爬虫下载异常处理

3．数据存储：

抓取字段设计
数据存储
负责将服务端爬取解析的页面进行存储。使用Mongodb对数据进行存储。

4．数据可视化

文本展示-> api结构前端展示

文章作者: WinkyQin

文章链接: http://winkyqin.com/2017/09/19/00-Python/%E5%8C%BA%E5%9D%97%E9%93%BE%E8%B5%84%E8%AE%AF%E6%95%B0%E6%8D%AE%E7%88%AC%E8%99%AB%E8%A7%84%E5%88%92/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 Qin Blog！

相关推荐

函数的返回值和参数进阶

变量的引用以及是否可变