文档章节

结巴分词使用

小祁1124
 小祁1124
发布于 2016/11/24 21:22
字数 321
阅读 76
收藏 1
  • 结巴分词的模式:

jieba支持三种分词模式:

      *精确模式,试图将句子最精确地切开,适合文本分析;

  *全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;

  *搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。

主要采用以下算法:

  *基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG)

  *采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合

  *对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Viterbi算法

  • jieba分词使用:

#coding=utf-8
import jieba
import jieba.posseg as pseg
import time
t1=time.time()
f=open("t_with_splitter.txt","r") #读取文本
string=f.read().decode("utf-8")

words = pseg.cut(string) #进行分词
result=""  #记录最终结果的变量
for w in words:
     result+= str(w.word)+"/"+str(w.flag) #加词性标注

f=open("text.txt","w")  #将结果保存到另一个文档中
f.write(result)
f.close()
t2=time.time()
print("分词及词性标注完成,耗时:"+str(t2-t1)+"秒。") #反馈结果

        

  

 

© 著作权归作者所有

共有 人打赏支持
小祁1124
粉丝 15
博文 78
码字总数 18220
作品 0
海淀
程序员
结巴分词在hadoop平台怎么使用?

@sunjunyi 你好,想跟你请教个问题: 首先感谢您写的结巴分词程序,很好很强大。 不过,我现在遇到一个问题。我需要借助别人的hadoop平台来运行一个任务,其中涉及到中文分词。这个平台可以通...

a1064328629
2013/09/12
283
0
结巴分词使用方法

0.下载 结巴分词包下载地址:http://download.csdn.net/detail/robinxushuai/9691188 1.安装 将其解压到任意目录下,然后打开命令行进入该目录执行:python setup.py install 进行安装 2.测试...

robin_Xu_shuai
2016/11/23
0
0
结巴分词(java版) --jieba-analysis

首先感谢jieba分词原作者fxsjy,没有他的无私贡献,我们也不会结识到结巴 分词,更不会有现在的java版本。 结巴分词的原始版本为python编写,目前该项目在github上的关注量为170, 打星727次...

piaolingxue
2013/08/06
8.4K
0
python中文分词,使用结巴分词对python进行分词

在采集美女站时,需要对关键词进行分词,最终采用的是python的结巴分词方法. 中文分词是中文文本处理的一个基础性工作,结巴分词利用进行中文分词。其基本实现原理有三点: 基于Trie树结构实现...

yangjiyue0520
2017/11/04
0
0
python 分词 jieba

jieba.cut方法接受两个输入参数: 1) 第一个参数为需要分词的字符串 2)cut_all参数用来控制是否采用全模式 jieba.cutforsearch方法接受一个参数:需要分词的字符串,该方法适合用于搜索引擎构...

阿豪boy
2017/09/17
0
0

没有更多内容

加载失败,请刷新页面

加载更多

使用JavaScript ES6的新特性计算Fibonacci(非波拉契数列)

程序员面试系列 Java面试系列-webapp文件夹和WebContent文件夹的区别? 程序员面试系列:Spring MVC能响应HTTP请求的原因? Java程序员面试系列-什么是Java Marker Interface(标记接口) 使...

JerryWang_SAP
29分钟前
2
0
docker安装redis、mongodb、mysql等

一、启动docker服务,设置镜像: systemctl start dockervi /etc/docker/daemon.json{ "registry-mirrors": ["https://registry.docker-cn.com"]} 二、下拉镜像: 在镜像中心h...

狼王黄师傅
53分钟前
2
0
deepin系统使用deepin-wine安装exe程序

deepin自带原生deepin-wine使用命令如下: deepin-wine QQBrowser.exedeepin-wine QQMusicSetup.exe 默认安装的快捷方式位置: /root/.wine/drive_c/'Program Files'/Tencent/QQBrowser/......

临江仙卜算子
今天
4
0
快速get到学习Linux操作系统的点

快速get到学习Linux操作系统的点 Linux是一套免费使用和自由传播的类Unix操作系统,是一个基于POSIX和UNIX的多用户、多任务、支持多线程和多CPU的操作系统。Linux能够运行主要的UNIX工具软件...

linuxCool
今天
7
0
聊聊:Linux分区的那些方案

安装linux的整体步骤其实比较简单,唯一可能值得说明的地方,大概就是linux的分区了。 下面来给大家推荐一些分区方案。 1 分两个区 实际上,很多时候我们只需要分两个区:`/`和交换分区,日常...

Linux就该这么学
今天
4
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部