第1章 开发环境配置

1.1 Python3的安装

1.1.1 相关链接

1.1.2 Windows下的安装

1.1.3 Linux下的安装

1.1.4 Mac下的安装

1.2 请求库的安装

爬虫简单分为几步:抓取页面分析页面存储数据
 抓取页面中,需要模拟浏览器向服务发出请求,所以需要用到python库来实现http请求操作。
本书使用到的第三方库有RequestsSeleniumAiotttp等。

1.2.1 Requests的安装

pip3 install requests

pip3 install wheel

1.2.2 Selenium的安装

Selenium是一个自动化测试工具,

1.2.3 ChromeDriver的安装

1.2.4 GeckoDriver的安装

1.2.5 PhantomJS的安装

1.2.6 aiohttp的安装

1.3 解析库的安装

1.3.1 lxml的安装

1.3.2 BeautifulSoup的安装

1.3.3 pyquery的安装

1.3.4 tesserocr的安装

1.4 数据库的安装

1.4.1 MySQL的安装

1.4.2 MongoDB安装

1.4.3 Redis的安装

1.5 存储库的安装

1.5.1 PyMySQL的安装

1.5.2 PyMongo的安装

1.5.3 redis—py的安装

1.5.4 RedisDump的安装

1.6 Web库的安装

1.6.1 Flask的安装

1.6.2 Tornado的安装

1.7 App爬取相关库的安装

App获取数据一般是通过请求服务器的接口来获取的,由于app端没有像浏览器一样的开发工具直接观察后台请求,所以app数据抓取主要用到抓包几乎。

本书介绍的抓包工具有Charles、MitmProxy、MitmDump
App简单接口通过Charles和MitmProxy分析找出规律就可直接抓取
更复杂接口,需要利用MitmProxy对接Python来对抓取到的请求和响应进行实时处理和保存,另外既然要做规模采集就需要自动化APP的操作而不是人工去采集,所以还需要一个工具Appium,它可以像Selenium一样对APP进行自动化控制,如自动化模拟APP的点击、下拉的操作。

  • 安装 Charles、MitmProxy、MitmDump、Appium

1.7.1 Charles的安装

1.7.2 mitmproxy的安装

1.7.3 Appium的安装

1.8 爬虫框架的安装

1.8.1 pyspider的安装

1.8.2 Scrapy的安装

1.8.3 Scrapy—Splash的安装

1.8.4 Scrapy—Redis的安装

1.9 部署相关库的安装

1.9.1 Docker的安装

1.9.2 Scrapyd的安装

1.9.3 Scrapyd—Client的安装

1.9.4 ScrapydAPI的安装

1.9.5 Scrapyrt的安装

1.9.6 Gerapy的安装