第4章 解析库的使用
第4章 解析库的使用
4.1 XPath的使用
XPath,全称XML Path Language,即XML路径语言,是一门在XML文档中查找信息的语言。
在做爬虫时,可以使用XPath来做响应的信息抽取,本节介绍XPath的基本用法。
4.1.1 XPath概览
4.1.2 XPath常用规则
表达式 | 描述 |
---|---|
nodename | 选取此节点的所有子节点 |
/ | 从当前节点选取直接子节点 |
// | 从当前节点选取子孙节点 |
. | 选取当前节点 |
.. | 选取当前节点的父节点 |
@ | 选取属性 |
4.1.3 准备工作
4.1.4 实例引入
4.1.5 所有节点
4.1.6 子节点
4.1.7 父节点
4.1.8 属性匹配
4.1.9 文本获取
4.1.10 属性获取
4.1.11 属性多值匹配
4.1.12 多属性匹配
4.1.13 按序选择
4.1.14 节点轴选择
4.1.15 结语
4.2 使用BeautifulSoup
4.2.1 BeautifulSoup简介
BeautifulSoup就是一个Python中的一个HTML或XML的及解析库,方面从网页提取数据。
4.2.2 准备工作
安装BeautifulSoup和LXML
4.2.3 解析器
Beautiful在解析的时候是依赖于解析器的
4.3 使用pyquery
4.3.1 准备工作
4.3.2 初始化
- 字符串初始化
- URL初始化
- 文件初始化
4.3.3 基本CSS选择器
4.3.4 查找节点
子节点
find()
父节点
parent()
兄弟节点
siblings()
4.3.5 遍历
4.3.6 获取信息
- 获取属性
attr()
- 获取文本
text()
4.3.7 节点操作
addClass 、removeClass
attr、text、html
4.3.8 伪类选择器
4.3.9 结语
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 Qin Blog!