文档章节

python "结巴"分词(jieba)

fjxichao
 fjxichao
发布于 2015/02/09 18:55
字数 106
阅读 65
收藏 0
#-*- coding: UTF-8 -*- 
import jieba

str = jieba.cut("小明硕士毕业于中国科学院计算所,后在日本京都大学深造",cut_all=False)

s=list(str)
print s      #输出[u'\u5c0f', u'\u660e'...]
for i in range(len(s)):
	print s[i].encode("utf-8")   #为了以中文而不是输出[u'\u5c0f', u'\u660e'...]

cut_all可以是True(全模式),也可以是False(默认模式/精确模式)


© 著作权归作者所有

共有 人打赏支持
fjxichao
粉丝 4
博文 67
码字总数 16562
作品 0
西安
程序员
Python 数据挖掘学习 一 结巴分词

近期,想对古典小说进行索引,和知识挖掘,所以研究了下python数据挖掘方面的知识 Python安装 python学习 一 python语法,及变量类型 python学习 二 爬一个图片网站上 python学习 二 02 爬一...

shuilan0066
01/22
0
0
python 分词 jieba

jieba.cut方法接受两个输入参数: 1) 第一个参数为需要分词的字符串 2)cut_all参数用来控制是否采用全模式 jieba.cutforsearch方法接受一个参数:需要分词的字符串,该方法适合用于搜索引擎构...

阿豪boy
2017/09/17
0
0
nltk-比较中文文档相似度-完整实例

nltk同时也能处理中文的场景,只要做如下改动: 使用中文分词器(如我选用了结巴分词) 对中文字符做编码处理,使用unicode编码方式 python的源码编码统一声明为 gbk 使用支持中文的语料库 代码...

深蓝苹果
2014/09/17
0
9
中文自然语言处理工具集:分词,相似度匹配

欢迎大家关注我们的网站和系列教程:http://www.tensorflownews.com/,学习更多的机器学习、深度学习的知识! 分词工具 结巴分词 https://github.com/fxsjy/jieba pullword http://www.pullw...

磐石001
04/03
0
0
用 python 爬取微博评论并手动分词制作词云

最近上海好像有举行个什么维吾尔族的秘密时装秀,很好看的样子,不过我还没时间看。但是微博上已经吵翻了天,原因是 好吧,这不是我们关心的,我的心里只有学习 Python 爬虫 本次爬取的是这条...

teaGod
2017/11/23
0
0

没有更多内容

加载失败,请刷新页面

加载更多

OSX | SafariBookmarksSyncAgent意外退出解决方法

1. 启动系统, 按住⌘-R不松手2. 在实用工具(Utilities)下打开终端,输入csrutil disable, 然后回车; 你就看到提示系统完整性保护(SIP: System Integrity Protection)已禁用3. 输入reboot回车...

云迹
今天
3
0
面向对象类之间的关系

面向对象类之间的关系:is-a、has-a、use-a is-a关系也叫继承或泛化,比如大雁和鸟类之间的关系就是继承。 has-a关系称为关联关系,例如企鹅在气候寒冷的地方生活,“企鹅”和“气候”就是关...

gackey
今天
4
0
读书(附电子书)|小狗钱钱之白色的拉布拉多

关注公众号,在公众号中回复“小狗钱钱”可免费获得电子书。 一、背景 之前写了一篇文章 《小狗钱钱》 理财小白应该读的一本书,那时候我才看那本书,现在看了一大半了,发现这本书确实不错,...

tiankonguse
今天
4
0
Permissions 0777 for ‘***’ are too open

异常显示: @@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@ @ WARNING: UNPROTECTED PRIVATE KEY FILE! @ @@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@ ......

李玉长
今天
5
0
区块链10年了,还未落地,它失败了吗?

导读 几乎每个人,甚至是对通证持怀疑态度的人,都对区块链的技术有积极的看法,因为它有可能改变世界。然而,区块链技术问世已经10年了,我们仍然没有真正的用上区块链技术。 几乎每个人,甚...

问题终结者
今天
4
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部