文档章节

R语言-进行中文分词

openthings
 openthings
发布于 2015/12/16 09:25
字数 385
阅读 1710
收藏 1

两种方法进行中文分词:Rwordseg和jiebaR

R语言的环境配置:

R_Path:

C:\Program Files\R\R-3.1.2

Path:

%R_Path%

一、用Rwordseg包进行中文分词

(1)进行Java的环境变量配置:

JAVA_HOME:

C:\Program Files\Java\jdk1.8.0_31

Path:

%JAVA_HOME%\bin;%JAVA_HOME%\jre\bin

CLASSPATH:

%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar


(2)下载Rwordseg包到本地硬盘,当前版本的Rwordseg包在https://r-forge.r-project.org/R/?group_id=1054

1 > install.packages("rJava")
2 > 将以下路径添加到Path环境变量中:

       • %JAVA_HOME%\jre\bin
       • %JAVA_HOME%\jre\bin\server
       • %R_Path%\library\rJava\jri

3 > install.packages("下载好的Rwordseg包所在的文件夹地址/Rwordseg_0.2-1.zip", repos=NULL,type="source")
(3)输入命令:

1 > library("rJava")
2 > library("Rwordseg")

3 > words = "环卫工因在寒风中烤火取暖被辞退"

4 > segment.options(isNameRecognition = TRUE) #打开人名识别
5 > segmentCN(words)

运行结果:

[1] "环卫" "工"   "因"   "在"   "寒风" "中"   "烤火" "取暖" "被"   "辞退"

换成words = "我的名字是R语言"

运行结果:[1] "我"    "的"    "名字"  "是"    "R语言"

二、用jiebaR包进行中文分词

(1)输入命令:

1 > install.packages("jiebaR") #安装jiebaR包

2 > library("jiebaRD") #加载jiebaRD包

3 > library("jiebaR")

4 > words = "环卫工因在寒风中烤火取暖被辞退"
5 > test = worker()
6 > test <= words

(2)输出结果:

[1] "环卫工" "因在"   "寒风"   "中"     "烤火"   "取暖"   "被"     "辞退"

换成words = "我的名字是R语言"

运行结果:[1] "我"   "的"   "名字" "是"   "R"    "语言"

更多分享请关注:www.crxy.cn


本文转载自:http://my.oschina.net/crxy/blog/376718

openthings
粉丝 322
博文 1137
码字总数 687066
作品 1
东城
架构师
私信 提问
jiebaR 0.1 发布,R语言中文分词

jiebaR是"结巴"中文分词的R语言版本,支持最大概率法(Maximum Probability),隐式马尔科夫模型(Hidden Markov Model),索引模型(QuerySegment),混合模型(MixSegment),共四种分词模...

yestr
2014/11/04
2.8K
9
"结巴"中文分词的R语言版本:jiebaR

"结巴"中文分词的R语言版本,支持最大概率法(Maximum Probability),隐式马尔科夫模型(Hidden Markov Model),索引模型(QuerySegment),混合模型(MixSegment),共四种分词模式,同时...

猪猪daxia
2014/12/22
1K
0
给我两小时!带你发动R语言数据挖掘的高铁,一往直前!

主题: 数据挖掘快速上手之R语言实践 随之DT时代的到来,传统的统计分析方法已经不能解决海量高维数据,如何运用数据挖掘手段对复杂数据进行数据处理、数据可视化、数据建模及模型解读是每一...

李晓文
2017/04/18
0
0
R语言深度学习包有哪些????

R语言深度学习的包有哪些???求大神告知R语言深度学习的包有哪些?R语言深度学习的包有哪些???求大神告知R语言深度学习的包有哪些?R语言深度学习的包有哪些???求大神告知R语言深度学...

pb加油
2016/08/31
276
0
大数据分析学习之使用R语言实战机器学习视频课程

大数据分析学习之使用R语言实战机器学习 网盘地址:https://pan.baidu.com/s/1Yi9H6s8EypgjJJlQmdFSg 密码:0jz3 备用地址(腾讯微云):https://share.weiyun.com/5tk6j1Z 密码:rdia9t 机器...

加班我快乐
2018/08/21
0
0

没有更多内容

加载失败,请刷新页面

加载更多

arcgis arcpy 克里金插值 掩膜 配置符号系统 自动生成图片

整体思路,最后要加载到mxd文件中,然后导出图片 首先加载mxd文件 mxd = mapping.MapDocument(r"./11.mxd") 然后读取数据 并加载到图层中 sr = arcpy.SpatialReference(4326) # 读取csv...

可达鸭Go
今天
4
0
漂亮有创意的思维导图模板分享

相信很多人使用在绘制思维导图时很喜欢使用模板进行编辑,它能够让你在短时间内快速创造出一个风格明显好看的思维导图,对绘制时间以及使用够感受影响都是较为深刻的,下面为大家分享几款漂亮...

干货趣分享
今天
4
0
使用js实现对cookie的增删改查

简单的操作cookie 存储cookie(key为test;value为testValue): document.cookie = "test=testValue"; 存储多个cookie: document.cookie = "test1=testValue1";document.cookie = "test2=te......

被毒打的程序猿_先瑞
今天
4
0
ApacheCN 公众号文章汇总 2019.9

ApacheCN 优质博文推荐计划正式启动 接受以下主题的博文: 人工智能(论文解读,比赛心得,面经,知识点讲解) 环材化生劝退 CS 留学申请,IT 外企求职 每日从所有投稿中精选两篇,在 Apache...

ApacheCN_飞龙
今天
5
0
Intellij Idea显示回退和前进按钮的方法

方法1:使用快捷键: 回到上一步 ctrl + alt + <-(左方向键) 回到下一步 ctrl + alt + ->(右方向键) 方法2:在界面显示: View -> 勾选ToolBar 方法3(推荐): (1)Preferences -> Ap...

孟飞阳
今天
8
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部