3. 处理原始文本
3. 处理原始文本
本章的目的:
- 我们怎样才能编写程序访问本地和网络上的文件,从而获得无限的语言材料?
- 我们如何把文档分割成单独的词和标点符号,这样我们就可以开始像前面章节中在文本语料上做的那样的分析。
- 我们怎样编程程序产生格式化的输出,并把结果保存在一个文件中。
为了解决这些问题,将讲述NLP的关键概念,包括分词和词干提取。在此过程中,将巩固你的Python知识并且了解关于字符串、文件和正则表达式知识。也将看到如何去除HTML标记。
3.1 从网络和硬盘访问文本
3.2 字符串:最底层的文本处理
3.3 使用Unicode进行文字处理
3.4 使用正则表达式检测词组搭配
3.6 规范化文本
3.7 用正则表达式为文本分词
3.8 分割
3.9 格式化:从列表到字符串
3.10 小结
3.11 深入阅读
3.12 练习
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 Qin Blog!