个人简历-危勤
个人简历-危勤基本信息
姓 名:危勤 年龄:30毕业院校:东华理工大学 专业:软件工程 手 机:19128336304 Email:winkyqin@163.com 博客:winkyqin.com
求职意向
求职岗位:python开发工程师
目前薪资:xxk 期望薪资:xxk
工作年限:7年
个人技能
1.熟悉Python语言,掌握函数式和面向对象编程,能够编写模块化、可重用、易维护的代码;
2.熟练掌握Linux、Unix平台上的后端开发,有良好的编程习惯
3.熟练掌握javascript, Ht ...
3. 处理原始文本
3. 处理原始文本本章的目的:
我们怎样才能编写程序访问本地和网络上的文件,从而获得无限的语言材料?
我们如何把文档分割成单独的词和标点符号,这样我们就可以开始像前面章节中在文本语料上做的那样的分析。
我们怎样编程程序产生格式化的输出,并把结果保存在一个文件中。
为了解决这些问题,将讲述NLP的关键概念,包括分词和词干提取。在此过程中,将巩固你的Python知识并且了解关于字符串、文件和正则表达式知识。也将看到如何去除HTML标记。
3.1 从网络和硬盘访问文本3.2 字符串:最底层的文本处理3.3 使用Unicode进行文字处理3.4 使用正则表达式检测词组搭配3.6 规范化文本3.7 用正则表达式为文本分词3.8 分割3.9 格式化:从列表到字符串3.10 小结3.11 深入阅读3.12 练习
2. 获得文本语料和词汇资源
2. 获得文本语料和词汇资源本章目的:
什么是有用的文本语料和词汇资源,我们如何用Python获取他们?
哪些Python结构最适合这项工作。
编写Python代码时我们如何避免重复的工作。
1. 获取文本语料库1.1 古腾堡语料库>>> import nltk
>>> nltk.corpus.gutenberg.fileids()
>>> emma = nltk.corpus.gutenberg.words('austen-emma.txt')
>>> len(emma)
>>> emma = nltk.Text(nltk.corpus.gutenberg.words('austen-emma.txt'))
>>> emma.concordance("surprize")
# import方式
>>> from nltk.corpus import gutenberg
>>&g ...
语言处理与Python
1.语言处理与Python 本章中,我们将解决以下几个问题:
将简单的程序和大量的文本结合起来,我们能实现什么?
我们如何能自动提取概括文本风格和内容的关键词和短语?
Python编程语言上为上述工作提供了哪些工具和技术?
自然语言处理中有哪些有趣的挑战?
1. 语言计算:文本和单词1.1 Python入门
安装Python3
1.2 NLTK入门
安装NLTK3.0download from nltk.org
Installing NLTK
Mac/Unix
1.Install NLTK: run sudo pip install -U nltk
or
sudo pip3 install -U nltk
2.Install Numpy/matplotlib(Optional): run sudo pip install -U numpy
//pip3 for python3
sudo pip3 install -U numpy
sudo pip3 install matplotlib
3. Test Installation: ru ...
Python自然语言处理
Python自然语言处理
使用自然语言工具包分析文本
前言自然语言处理(Natural Language Processing 简称 NLP)包含所有用计算机对自然语言进行的操作。自然语言工具包(Natural language Toolkit, 简称 NLTK)。NLTK包含大量的软件、数据和文档,可以从https://www.nltk.org/下载。
Python3和NLTK3软件安装需求
Python:
NLTK:
NLTK-Data:
Numpy:
Matplotlib:
http://nlp.stanford.edu/software/
NetworkX:
Prover9:
自然语言工具包
语言处理任务与相应NLTK模块以及功能描述
百度自然语言实战
百度自然语言实战1. 中文自然语言处理知识入门与应用2. 百度机器翻译3. 篇章分析4. UNIT语言理解和交互技术
4. 编写结构化程序
4. 编写结构化程序本章目标:
怎么能写出结构良好、可读的程序,你和其他人将能够很容易的重新使用它?
基本结构块,如循环、函数以及赋值,是如何执行的?
Python编程的陷阱有哪些,你怎么能避免他们吗?
4.1 回到基础赋值等式条件4.2 序列序列类型上的操作合并不同类型的序列生成器表达式4.3 风格的问题PYthon代码风格过程风格与声明风格计数器的一些合理用途4.4 函数:结构化编程的基础4.5 更多关于函数4.6 程序开发4.7 算法设计小结
深入阅读
练习
5. 分类和标注词汇
5. 分类和标注词汇本章目标:
什么是词汇分类,在自然语言处理中他们是如何使用?
一个好的存储词汇和他们的分类的Python数据结构是什么?
我们如何自动标注文本中词汇的词类。
1. 使用词性标注器2. 已经标注的语料库2.1 表示已经标注的词符2.2 读取已标注的语料库2.3 通用词性标注2.4 名词2.5 动词2.6 形容词和副词2.7 未简化的标记2.8 探索已标注的语料库3. 使用Python字典映射单词到其属性3.1 索引列表VS字典3.3 定义字典3.4 默认字典3.5 递增更新字典3.6 复杂的键和值3.7 反转字典4.1 默认标注器4.2 正则表达式标注器4.3 查询标注器4.4 评估5. N-gram标注5.1 一元标注5.2 分离训练和测试数据5.3 一般的N-gram标注5.4 组合标注器5.5 标注生词5.6 存储标注器5.7 准确性的极限6. 基于转换得标注7. 如何确定一个词的分类7.1 形态学线索7.2 句法线索
无题
Python正则表达式re.match函数re.match 尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match就返回none.
re.match(pattern, string, flags=0)
re.search方法re.search 扫描整个字符串并返回第一个成功的匹配。
re.search(pattern, string, flags=0)
re.match与re.search 的区别re.match只匹配字符串的开始,如果字符串开始不符合正则表达式,则匹配失效,函数返回none;而re.search匹配整个字符串,直到找到一个匹配。
检索和替换Python的re模块提供了re.sub用于替换字符串中的匹配项。
re.sub(pattern, repl, string, count=0, flags=0)
参数:
pattern: 正则中的模式字符串
repl: 待替换的字符串,也可以为一个函数。
string: 要被查找替换的原始字符串。
count: 模式匹配后替换的最大次数,默认0表示替换所有的匹配。
正则表达式修饰符 - 可选标志正则表达 ...
无题
Python散列学习1.Python中 *args和**kwargs的区别
*args 用于将参数打包给tuple使用
**kwargs 用于将参数打包给dict给函数体调用
2. Python中单例模式的几种实现和优化
使用模块1class singleton
使用装饰器
使用类
基于 __new__ 方法实现(推荐使用,方便)
基于metaclass方式实现
3. python中 @classmethod , @staticmethod区别12345678910111213class A(object): def foo(self, x): print("executing foo(%s,%s)" % (self, x)) print('self:', self) @classmethod def class_foo(cls, x): print("executing class_foo(%s,%s)" % (cls, x ...