第1章 开发环境配置
第1章 开发环境配置
1.1 Python3的安装
1.1.1 相关链接
…
1.1.2 Windows下的安装
…
1.1.3 Linux下的安装
…
1.1.4 Mac下的安装
…
1.2 请求库的安装
爬虫简单分为几步:抓取页面、分析页面、存储数据。
抓取页面中,需要模拟浏览器向服务发出请求,所以需要用到python库来实现http请求操作。
本书使用到的第三方库有Requests、Selenium、Aiotttp等。
1.2.1 Requests的安装
pip3 install requests
pip3 install wheel
1.2.2 Selenium的安装
Selenium是一个自动化测试工具,
1.2.3 ChromeDriver的安装
1.2.4 GeckoDriver的安装
1.2.5 PhantomJS的安装
1.2.6 aiohttp的安装
1.3 解析库的安装
1.3.1 lxml的安装
1.3.2 BeautifulSoup的安装
1.3.3 pyquery的安装
1.3.4 tesserocr的安装
1.4 数据库的安装
1.4.1 MySQL的安装
1.4.2 MongoDB安装
1.4.3 Redis的安装
1.5 存储库的安装
1.5.1 PyMySQL的安装
1.5.2 PyMongo的安装
1.5.3 redis—py的安装
1.5.4 RedisDump的安装
1.6 Web库的安装
1.6.1 Flask的安装
1.6.2 Tornado的安装
1.7 App爬取相关库的安装
App获取数据一般是通过请求服务器的接口来获取的,由于app端没有像浏览器一样的开发工具直接观察后台请求,所以app数据抓取主要用到抓包几乎。
本书介绍的抓包工具有Charles、MitmProxy、MitmDump
App简单接口通过Charles和MitmProxy分析找出规律就可直接抓取
更复杂接口,需要利用MitmProxy对接Python来对抓取到的请求和响应进行实时处理和保存,另外既然要做规模采集就需要自动化APP的操作而不是人工去采集,所以还需要一个工具Appium,它可以像Selenium一样对APP进行自动化控制,如自动化模拟APP的点击、下拉的操作。
- 安装 Charles、MitmProxy、MitmDump、Appium
1.7.1 Charles的安装
1.7.2 mitmproxy的安装
1.7.3 Appium的安装
1.8 爬虫框架的安装
1.8.1 pyspider的安装
1.8.2 Scrapy的安装
1.8.3 Scrapy—Splash的安装
1.8.4 Scrapy—Redis的安装
1.9 部署相关库的安装
1.9.1 Docker的安装
1.9.2 Scrapyd的安装
1.9.3 Scrapyd—Client的安装
1.9.4 ScrapydAPI的安装
1.9.5 Scrapyrt的安装
1.9.6 Gerapy的安装
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 Qin Blog!