3. 处理原始文本

本章的目的:

    1. 我们怎样才能编写程序访问本地和网络上的文件,从而获得无限的语言材料?
    1. 我们如何把文档分割成单独的词和标点符号,这样我们就可以开始像前面章节中在文本语料上做的那样的分析。
    1. 我们怎样编程程序产生格式化的输出,并把结果保存在一个文件中。

为了解决这些问题,将讲述NLP的关键概念,包括分词和词干提取。在此过程中,将巩固你的Python知识并且了解关于字符串、文件和正则表达式知识。也将看到如何去除HTML标记。

3.1 从网络和硬盘访问文本

3.2 字符串:最底层的文本处理

3.3 使用Unicode进行文字处理

3.4 使用正则表达式检测词组搭配

3.6 规范化文本

3.7 用正则表达式为文本分词

3.8 分割

3.9 格式化:从列表到字符串

3.10 小结

3.11 深入阅读

3.12 练习