第4章 解析库的使用

4.1 XPath的使用

XPath,全称XML Path Language,即XML路径语言,是一门在XML文档中查找信息的语言。
在做爬虫时,可以使用XPath来做响应的信息抽取,本节介绍XPath的基本用法。

4.1.1 XPath概览

4.1.2 XPath常用规则

表达式 描述
nodename 选取此节点的所有子节点
/ 从当前节点选取直接子节点
// 从当前节点选取子孙节点
. 选取当前节点
.. 选取当前节点的父节点
@ 选取属性

4.1.3 准备工作

4.1.4 实例引入

4.1.5 所有节点

4.1.6 子节点

4.1.7 父节点

4.1.8 属性匹配

4.1.9 文本获取

4.1.10 属性获取

4.1.11 属性多值匹配

4.1.12 多属性匹配

4.1.13 按序选择

4.1.14 节点轴选择

4.1.15 结语

4.2 使用BeautifulSoup

4.2.1 BeautifulSoup简介

BeautifulSoup就是一个Python中的一个HTML或XML的及解析库,方面从网页提取数据。

4.2.2 准备工作

安装BeautifulSoup和LXML

4.2.3 解析器

Beautiful在解析的时候是依赖于解析器的

4.3 使用pyquery

4.3.1 准备工作

4.3.2 初始化

  • 字符串初始化
  • URL初始化
  • 文件初始化

4.3.3 基本CSS选择器

4.3.4 查找节点

  • 子节点

      find()
    
  • 父节点

      parent()
      
    
  • 兄弟节点

      siblings()
    

4.3.5 遍历

4.3.6 获取信息

  • 获取属性
      attr()
      
    
  • 获取文本
      text()
    

4.3.7 节点操作

  • addClass 、removeClass

  • attr、text、html

4.3.8 伪类选择器

4.3.9 结语