文档章节

结巴分词使用

小祁1124
 小祁1124
发布于 2016/11/24 21:22
字数 321
阅读 70
收藏 1
点赞 0
评论 0
  • 结巴分词的模式:

jieba支持三种分词模式:

      *精确模式,试图将句子最精确地切开,适合文本分析;

  *全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;

  *搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。

主要采用以下算法:

  *基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG)

  *采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合

  *对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Viterbi算法

  • jieba分词使用:

#coding=utf-8
import jieba
import jieba.posseg as pseg
import time
t1=time.time()
f=open("t_with_splitter.txt","r") #读取文本
string=f.read().decode("utf-8")

words = pseg.cut(string) #进行分词
result=""  #记录最终结果的变量
for w in words:
     result+= str(w.word)+"/"+str(w.flag) #加词性标注

f=open("text.txt","w")  #将结果保存到另一个文档中
f.write(result)
f.close()
t2=time.time()
print("分词及词性标注完成,耗时:"+str(t2-t1)+"秒。") #反馈结果

        

  

 

© 著作权归作者所有

共有 人打赏支持
小祁1124
粉丝 15
博文 77
码字总数 18220
作品 0
海淀
程序员
结巴分词在hadoop平台怎么使用?

@sunjunyi 你好,想跟你请教个问题: 首先感谢您写的结巴分词程序,很好很强大。 不过,我现在遇到一个问题。我需要借助别人的hadoop平台来运行一个任务,其中涉及到中文分词。这个平台可以通...

a1064328629 ⋅ 2013/09/12 ⋅ 0

结巴分词使用方法

0.下载 结巴分词包下载地址:http://download.csdn.net/detail/robinxushuai/9691188 1.安装 将其解压到任意目录下,然后打开命令行进入该目录执行:python setup.py install 进行安装 2.测试...

robin_Xu_shuai ⋅ 2016/11/23 ⋅ 0

结巴分词(java版) --jieba-analysis

首先感谢jieba分词原作者fxsjy,没有他的无私贡献,我们也不会结识到结巴 分词,更不会有现在的java版本。 结巴分词的原始版本为python编写,目前该项目在github上的关注量为170, 打星727次...

piaolingxue ⋅ 2013/08/06 ⋅ 0

用Python的“结巴”模块进行分词

之前都是用计算所的分词工具进行分词,效果不错但是比较麻烦,最近开始用Python的“结巴”模块进行分词,感觉非常方便。这里将我写的一些小程序分享给大家,希望对大家有所帮助。 下面这个程...

沉淀岁月 ⋅ 2016/09/06 ⋅ 0

结巴分词 iOS 版--iosjieba

简介 结巴中文分词的 iOS 版本。 底层使用的依然是 CppJieba 。 用法 启动后在框里面输入待分词的句子,然后按回车键即可。 致谢 感谢 [fxjsy] 的结巴中文分词 jieba 。...

吴延毅 ⋅ 2014/12/25 ⋅ 1

jieba中文分词的.NET版本:jieba.NET

简介 平时经常用Python写些小程序。在做文本分析相关的事情时免不了进行中文分词,于是就遇到了用Python实现的结巴中文分词。jieba使用起来非常简单,同时分词的结果也令人印象深刻,有兴趣的...

长征3号 ⋅ 2017/12/12 ⋅ 0

python 常用中文分词工具

最近在做微博的文本处理,在分词工具的选择上,分别选择了:jieba NLPIR LTP 这三种分词工具,在这里分享下~ 1.jieba 分词: # -- coding: UTF-8 --import osimport codecsimport jiebaseg_list =...

gdufstfknight ⋅ 04/13 ⋅ 0

elasticsearch-analysis-jieba

结巴分词插件(for elasticsearch),目前支持0.90.*以上版本 ---------------------------------------------------- Jieba Chinese Analysis Plugin ElasticSearch 0.0.1-SNAPSHOT (master)......

piaolingxue ⋅ 2013/08/29 ⋅ 1

Python 数据挖掘学习 一 结巴分词

近期,想对古典小说进行索引,和知识挖掘,所以研究了下python数据挖掘方面的知识 Python安装 python学习 一 python语法,及变量类型 python学习 二 爬一个图片网站上 python学习 二 02 爬一...

shuilan0066 ⋅ 01/22 ⋅ 0

爬取百度百科5A景点摘要并实现分词

一、编程环境 操作系统:Win 10 语言:Python 3.6 分词工具:结巴分词 二、程序目录 这里baikespider.py用来爬取景点摘要,内容放在senicspots目录中; cutword.py用来分词,分词结果放在cut...

海天一树X ⋅ 05/28 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

C++内存映射文件居然是这样?!

内存映射文件大家都时不时听过,但它到底是个什么?赶紧来看看吧 内存映射文件到底是干嘛的呢?让我们先来思考下面几个问题: 如果您想读的内容大于系统分配的内存块怎么办?如果您想搜索的字...

柳猫 ⋅ 25分钟前 ⋅ 0

MySQL 数据库设计总结

规则1:一般情况可以选择MyISAM存储引擎,如果需要事务支持必须使用InnoDB存储引擎。 注意:MyISAM存储引擎 B-tree索引有一个很大的限制:参与一个索引的所有字段的长度之和不能超过1000字节...

OSC_cnhwTY ⋅ 今天 ⋅ 0

多线程(四)

线程池和Exector框架 什么是线程池? 降低资源的消耗 提高响应速度,任务:T1创建线程时间,T2任务执行时间,T3线程销毁时间,线程池没有或者减少T1和T3 提高线程的可管理性。 线程池要做些什...

这很耳东先生 ⋅ 今天 ⋅ 0

使用SpringMVC的@Validated注解验证

1、SpringMVC验证@Validated的使用 第一步:编写国际化消息资源文件 编写国际化消息资源ValidatedMessage.properties文件主要是用来显示错误的消息定制 [java] view plain copy edit.userna...

瑟青豆 ⋅ 今天 ⋅ 0

19.压缩工具gzip bzip2 xz

6月22日任务 6.1 压缩打包介绍 6.2 gzip压缩工具 6.3 bzip2压缩工具 6.4 xz压缩工具 6.1 压缩打包介绍: linux中常见的一些压缩文件 .zip .gz .bz2 .xz .tar .gz .tar .bz2 .tar.xz 建立一些文...

王鑫linux ⋅ 今天 ⋅ 0

6. Shell 函数 和 定向输出

Shell 常用函数 简洁:目前没怎么在Shell 脚本中使用过函数,哈哈,不过,以后可能会用。就像java8的函数式编程,以后获取会用吧,行吧,那咱们简单的看一下具体的使用 Shell函数格式 linux ...

AHUSKY ⋅ 今天 ⋅ 0

单片机软件定时器

之前写了一个软件定时器,发现不够优化,和友好,现在重写了 soft_timer.h #ifndef _SOFT_TIMER_H_#define _SOFT_TIMER_H_#include "sys.h"typedef void (*timer_callback_function)(vo...

猎人嘻嘻哈哈的 ⋅ 今天 ⋅ 0

好的资料搜说引擎

鸠摩搜书 简介:鸠摩搜书是一个电子书搜索引擎。它汇集了多个网盘和电子书平台的资源,真所谓大而全。而且它还支持筛选txt,pdf,mobi,epub、azw3格式文件。还显示来自不同网站的资源。对了,...

乔三爷 ⋅ 今天 ⋅ 0

Debian下安装PostgreSQL的表分区插件pg_pathman

先安装基础的编译环境 apt-get install build-essential libssl1.0-dev libkrb5-dev 将pg的bin目录加入环境变量,主要是要使用 pg_config export PATH=$PATH:/usr/lib/postgresql/10/bin 进......

玛雅牛 ⋅ 今天 ⋅ 0

inno安装

#define MyAppName "HoldChipEngin" #define MyAppVersion "1.0" #define MyAppPublisher "Hold Chip, Inc." #define MyAppURL "http://www.holdchip.com/" #define MyAppExeName "HoldChipE......

backtrackx ⋅ 今天 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部