2. 获得文本语料和词汇资源

本章目的:

  1. 什么是有用的文本语料和词汇资源,我们如何用Python获取他们?
  2. 哪些Python结构最适合这项工作。
  3. 编写Python代码时我们如何避免重复的工作。

1. 获取文本语料库

1.1 古腾堡语料库

>>> import nltk
>>> nltk.corpus.gutenberg.fileids()

>>> emma =  nltk.corpus.gutenberg.words('austen-emma.txt')
>>> len(emma)

>>> emma = nltk.Text(nltk.corpus.gutenberg.words('austen-emma.txt'))
>>> emma.concordance("surprize")

    # import方式
>>> from nltk.corpus import gutenberg
>>> gutenberg.fileids()

    # 循环输出
>>> for fileid in gutenberg.fileids():
        num_chars = len(gutenberg.raw(fileid)) [1]
        num_words = len(gutenberg.words(fileid))
        num_sents = len(gutenberg.sents(fileid))
        num_vocab = len(set(w.lower() for w in gutenberg.words(fileid)))
        
        print(round(num_chars/num_words), round(num_words/num_sents), round(num_words/num_vocab), fileid)
        
        
    

1.2 网络和聊天文本

1.3 布朗语料库

1.4 路透社语料库

1.5 就职演说语料库

1.6 标注文本语料库

1.8 文本语料库的结构

1.9 加载你自己的语料库

2. 条件频率分布

2.1 条件和事件

2.2 按文本计数词汇

2.3 绘制文本图和分布表

2.4 使用双连词生成随机文本

3.2 函数

3.3 模块

4. 词汇资源

4.1 词汇列表语料库

4.2 发音的词典

4.3 比较词表

4.4 词汇工具

5. WordNet

5.1 意义与同义词

5.2 WordNet的层次结构

5.3 更多的词汇关系

5.4 语义相似度

6. 小结

7. 深入阅读

8. 练习