avatar
文章
192
标签
59
分类
10

Home
Archives
Tags
Categories
About
Qin Blog
Home
Archives
Tags
Categories
About

Qin Blog

个人简历-危勤
发表于2021-02-25|WinkyQin
个人简历-危勤基本信息 姓   名:危勤        年龄:30毕业院校:东华理工大学   专业:软件工程 手   机:19128336304    Email:winkyqin@163.com 博客:winkyqin.com 求职意向 求职岗位:python开发工程师 目前薪资:xxk       期望薪资:xxk 工作年限:7年 个人技能 1.熟悉Python语言,掌握函数式和面向对象编程,能够编写模块化、可重用、易维护的代码; 2.熟练掌握Linux、Unix平台上的后端开发,有良好的编程习惯 3.熟练掌握javascript, Ht ...
3. 处理原始文本
发表于2021-02-24|AI
3. 处理原始文本本章的目的: 我们怎样才能编写程序访问本地和网络上的文件,从而获得无限的语言材料? 我们如何把文档分割成单独的词和标点符号,这样我们就可以开始像前面章节中在文本语料上做的那样的分析。 我们怎样编程程序产生格式化的输出,并把结果保存在一个文件中。 为了解决这些问题,将讲述NLP的关键概念,包括分词和词干提取。在此过程中,将巩固你的Python知识并且了解关于字符串、文件和正则表达式知识。也将看到如何去除HTML标记。 3.1 从网络和硬盘访问文本3.2 字符串:最底层的文本处理3.3 使用Unicode进行文字处理3.4 使用正则表达式检测词组搭配3.6 规范化文本3.7 用正则表达式为文本分词3.8 分割3.9 格式化:从列表到字符串3.10 小结3.11 深入阅读3.12 练习
2. 获得文本语料和词汇资源
发表于2021-02-24|AI
2. 获得文本语料和词汇资源本章目的: 什么是有用的文本语料和词汇资源,我们如何用Python获取他们? 哪些Python结构最适合这项工作。 编写Python代码时我们如何避免重复的工作。 1. 获取文本语料库1.1 古腾堡语料库>>> import nltk >>> nltk.corpus.gutenberg.fileids() >>> emma = nltk.corpus.gutenberg.words('austen-emma.txt') >>> len(emma) >>> emma = nltk.Text(nltk.corpus.gutenberg.words('austen-emma.txt')) >>> emma.concordance("surprize") # import方式 >>> from nltk.corpus import gutenberg >>&g ...
语言处理与Python
发表于2021-02-24|AI
1.语言处理与Python 本章中,我们将解决以下几个问题: 将简单的程序和大量的文本结合起来,我们能实现什么? 我们如何能自动提取概括文本风格和内容的关键词和短语? Python编程语言上为上述工作提供了哪些工具和技术? 自然语言处理中有哪些有趣的挑战? 1. 语言计算:文本和单词1.1 Python入门 安装Python3 1.2 NLTK入门 安装NLTK3.0download from nltk.org Installing NLTK Mac/Unix 1.Install NLTK: run sudo pip install -U nltk or sudo pip3 install -U nltk 2.Install Numpy/matplotlib(Optional): run sudo pip install -U numpy //pip3 for python3 sudo pip3 install -U numpy sudo pip3 install matplotlib 3. Test Installation: ru ...
Python自然语言处理
发表于2021-02-24|AI
Python自然语言处理 使用自然语言工具包分析文本 前言自然语言处理(Natural Language Processing 简称 NLP)包含所有用计算机对自然语言进行的操作。自然语言工具包(Natural language Toolkit, 简称 NLTK)。NLTK包含大量的软件、数据和文档,可以从https://www.nltk.org/下载。 Python3和NLTK3软件安装需求 Python: NLTK: NLTK-Data: Numpy: Matplotlib: http://nlp.stanford.edu/software/ NetworkX: Prover9: 自然语言工具包 语言处理任务与相应NLTK模块以及功能描述
百度自然语言实战
发表于2021-02-24|AI
百度自然语言实战1. 中文自然语言处理知识入门与应用2. 百度机器翻译3. 篇章分析4. UNIT语言理解和交互技术
4. 编写结构化程序
发表于2021-02-24|AI
4. 编写结构化程序本章目标: 怎么能写出结构良好、可读的程序,你和其他人将能够很容易的重新使用它? 基本结构块,如循环、函数以及赋值,是如何执行的? Python编程的陷阱有哪些,你怎么能避免他们吗? 4.1 回到基础赋值等式条件4.2 序列序列类型上的操作合并不同类型的序列生成器表达式4.3 风格的问题PYthon代码风格过程风格与声明风格计数器的一些合理用途4.4 函数:结构化编程的基础4.5 更多关于函数4.6 程序开发4.7 算法设计小结 深入阅读 练习
5. 分类和标注词汇
发表于2021-02-24|AI
5. 分类和标注词汇本章目标: 什么是词汇分类,在自然语言处理中他们是如何使用? 一个好的存储词汇和他们的分类的Python数据结构是什么? 我们如何自动标注文本中词汇的词类。 1. 使用词性标注器2. 已经标注的语料库2.1 表示已经标注的词符2.2 读取已标注的语料库2.3 通用词性标注2.4 名词2.5 动词2.6 形容词和副词2.7 未简化的标记2.8 探索已标注的语料库3. 使用Python字典映射单词到其属性3.1 索引列表VS字典3.3 定义字典3.4 默认字典3.5 递增更新字典3.6 复杂的键和值3.7 反转字典4.1 默认标注器4.2 正则表达式标注器4.3 查询标注器4.4 评估5. N-gram标注5.1 一元标注5.2 分离训练和测试数据5.3 一般的N-gram标注5.4 组合标注器5.5 标注生词5.6 存储标注器5.7 准确性的极限6. 基于转换得标注7. 如何确定一个词的分类7.1 形态学线索7.2 句法线索
无题
发表于2020-11-05
Python正则表达式re.match函数re.match 尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match就返回none. re.match(pattern, string, flags=0) re.search方法re.search 扫描整个字符串并返回第一个成功的匹配。 re.search(pattern, string, flags=0) re.match与re.search 的区别re.match只匹配字符串的开始,如果字符串开始不符合正则表达式,则匹配失效,函数返回none;而re.search匹配整个字符串,直到找到一个匹配。 检索和替换Python的re模块提供了re.sub用于替换字符串中的匹配项。 re.sub(pattern, repl, string, count=0, flags=0) 参数: pattern: 正则中的模式字符串 repl: 待替换的字符串,也可以为一个函数。 string: 要被查找替换的原始字符串。 count: 模式匹配后替换的最大次数,默认0表示替换所有的匹配。 正则表达式修饰符 - 可选标志正则表达 ...
无题
发表于2020-03-24
Python散列学习1.Python中 *args和**kwargs的区别 *args 用于将参数打包给tuple使用 **kwargs 用于将参数打包给dict给函数体调用 2. Python中单例模式的几种实现和优化 使用模块1class singleton 使用装饰器 使用类 基于 __new__ 方法实现(推荐使用,方便) 基于metaclass方式实现 3. python中 @classmethod , @staticmethod区别12345678910111213class A(object): def foo(self, x): print("executing foo(%s,%s)" % (self, x)) print('self:', self) @classmethod def class_foo(cls, x): print("executing class_foo(%s,%s)" % (cls, x ...
12…20
avatar
WinkyQin
文章
192
标签
59
分类
10
Follow Me
公告
Have a nice day!
最新文章
个人简历-危勤2021-02-25
3. 处理原始文本2021-02-24
2. 获得文本语料和词汇资源2021-02-24
语言处理与Python2021-02-24
Python自然语言处理2021-02-24
分类
  • AI9
  • Android26
  • Bitcoin29
  • BlockChain25
  • Java1
  • Linux12
  • Python82
  • Python基础1
  • Ubuntu1
  • WinkyQin2
标签
AI Android Android面试 CSS3 Git GitLab Gradle配置 GrowingIO JCenter JavaScript JitPack Linux Linux命令 MongoDB MySql数据库 ORMLite Python Python基础 Retrofit Rxjava Scrapy Scrapyd Tokyo UI Ubuntu WinkyQin apk打包 app优化 crontab java虚拟机 mini-Web mini-Web框架 python redis tinker vim web服务器 事件传递机制 交易 代码规范
归档
  • 二月 20218
  • 十一月 20201
  • 三月 202019
  • 七月 20183
  • 六月 20186
  • 五月 201813
  • 四月 20185
  • 三月 20186
网站资讯
文章数目 :
192
最后更新时间 :
©2020 - 2021 By WinkyQin
框架 Hexo|主题 Butterfly