5. 分类和标注词汇

本章目标:

  1. 什么是词汇分类,在自然语言处理中他们是如何使用?
  2. 一个好的存储词汇和他们的分类的Python数据结构是什么?
  3. 我们如何自动标注文本中词汇的词类。

1. 使用词性标注器

2. 已经标注的语料库

2.1 表示已经标注的词符

2.2 读取已标注的语料库

2.3 通用词性标注

2.4 名词

2.5 动词

2.6 形容词和副词

2.7 未简化的标记

2.8 探索已标注的语料库

3. 使用Python字典映射单词到其属性

3.1 索引列表VS字典

3.3 定义字典

3.4 默认字典

3.5 递增更新字典

3.6 复杂的键和值

3.7 反转字典

4.1 默认标注器

4.2 正则表达式标注器

4.3 查询标注器

4.4 评估

5. N-gram标注

5.1 一元标注

5.2 分离训练和测试数据

5.3 一般的N-gram标注

5.4 组合标注器

5.5 标注生词

5.6 存储标注器

5.7 准确性的极限

6. 基于转换得标注

7. 如何确定一个词的分类

7.1 形态学线索

7.2 句法线索