文档章节

NLTK学习笔记(一)

NateHuang
 NateHuang
发布于 2017/03/21 14:25
字数 322
阅读 101
收藏 1

len(text)  #单词个数

set(text)  #去重

sorted(text) #排序

text.count('a') #数给定的单词的个数

text.index('a') #给定单词首次出现的位置

FreqDist(text) #单词及频率,keys()为单词,*[key]得到值 

FreqDist(text).plot(50,cumulative=True) #画累积图  ps:使用这个需要安装Matplotlib

bigrams(text) #所有的相邻二元组

text.collocations() #找文本中频繁相邻二元组

text.concordance("word") #找给定单词出现的位置及上下文

text.similar("word") #找和给定单词语境相似的所有单词

text.common_context("a“,"b") #找两个单词相似的上下文语境

text.dispersion_plot(['a','b','c',...]) #单词在文本中的位置分布比较图  ps:使用这个需要安装Matplotlib

text.generate() #随机产生一段文本

fdist = FreqDist(samples) 创建包含给定样本的频率分布

fdist.inc(sample) 增加样本

fdist['monstrous'] 计数给定样本出现的次数

fdist.freq('monstrous') 给定样本的频率

fdist.N() 样本总数

fdist.keys() 以频率递减顺序排序的样本链表

for sample in fdist: 以频率递减的顺序遍历样本

fdist.max() 数值最大的样本

fdist.tabulate() 绘制频率分布表

fdist.plot() 绘制频率分布图

fdist.plot(cumulative=True) 绘制累积频率分布图

fdist1< fdist2 测试样本在 fdist1中出现的频率是否小于 fdist2
 

© 著作权归作者所有

NateHuang
粉丝 19
博文 66
码字总数 31120
作品 0
深圳
后端工程师
私信 提问
python的nltk中文使用和学习资料汇总帮你入门提高

nltk是一个python工具包, 用来处理和自然语言处理相关的东西. 包括分词(tokenize), 词性标注(POS), 文本分类, 等等现成的工具. 1. nltk的安装 资料1.1: 黄聪:Python+NLTK自然语言处理学习(...

dm_ml
2015/12/24
255
0
持续更新笔记:用Python进行自然语言处理(Natural Language Processing with python)

#下载 NLTK 图书集 >>> import nltk >>> nltk.download() 使用 nltk.download()浏览可用的软件包。下载器上的 Collections 选项卡显示软件包如何被打包分组。选择 book 标记所在行,可以获取...

gk4030
2016/09/03
418
0
自然语言处理(python)环境配置-NLTK的安装

自然语言处理(python)环境配置-NLTK的安装 1.自然语言处理的介绍 NLP (Natural Language Processing) 是人工智能(AI)的一个子领域。是机器真正能够理解人类说话的重要一环。自然语言处理也...

meiqi0538
2018/04/08
0
0
全栈数据,主要技术点

生命之源 0. 缘起 本文仅仅只是列出一些知识点,拟做为内部技术分享的点,只是对『全栈数据』技术点有一个概要性的了解。 列出的点,99%都是自己的经验,或接触、或了解、或实战的内容。 本文...

云戒
2017/06/25
0
0
对文本进行pos-tag

我想对文本进行pos-tag import nltk; file_object = open('E:\\practise\\Web1T5-Easy-1.1\\3grams\\3gm-0000.txt') try: for eachline in file_object: print eachline,; text = nltk.word_......

taolin2014
2014/05/28
1K
1

没有更多内容

加载失败,请刷新页面

加载更多

代理模式之JDK动态代理 — “JDK Dynamic Proxy“

动态代理的原理是什么? 所谓的动态代理,他是一个代理机制,代理机制可以看作是对调用目标的一个包装,这样我们对目标代码的调用不是直接发生的,而是通过代理完成,通过代理可以有效的让调...

code-ortaerc
38分钟前
4
0
学习记录(day05-标签操作、属性绑定、语句控制、数据绑定、事件绑定、案例用户登录)

[TOC] 1.1.1标签操作v-text&v-html v-text:会把data中绑定的数据值原样输出。 v-html:会把data中值输出,且会自动解析html代码 <!--可以将指定的内容显示到标签体中--><标签 v-text=""></......

庭前云落
今天
7
0
VMware vSphere的两种RDM磁盘

在VMware vSphere vCenter中创建虚拟机时,可以添加一种叫RDM的磁盘。 RDM - Raw Device Mapping,原始设备映射,那么,RDM磁盘是不是就可以称作为“原始设备映射磁盘”呢?这也是一种可以热...

大别阿郎
今天
10
0
【AngularJS学习笔记】02 小杂烩及学习总结

本文转载于:专业的前端网站☞【AngularJS学习笔记】02 小杂烩及学习总结 表格示例 <div ng-app="myApp" ng-controller="customersCtrl"> <table> <tr ng-repeat="x in names | orderBy ......

前端老手
昨天
14
0
Linux 内核的五大创新

在科技行业,创新这个词几乎和革命一样到处泛滥,所以很难将那些夸张的东西与真正令人振奋的东西区分开来。Linux内核被称为创新,但它又被称为现代计算中最大的奇迹,一个微观世界中的庞然大...

阮鹏
昨天
18
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部