文档章节

ICTCLAS分词系统

刘新全
 刘新全
发布于 2015/06/09 15:56
字数 771
阅读 206
收藏 0
点赞 0
评论 0

今天在做mahout文本挖掘的时候,看见了一个分词工具的文章,用了一下,很不错。博客原文

http://www.cnblogs.com/zhenyulu/articles/653254.html。

ICTCLAS的官网是http://ictclas.nlpir.org/。下面是我程序。下载的压缩包中包括c/c++,c#,java,python。这些语言有对应的包。里面有详细的pdf文档。可以试一下。记着把jar包导入eclipse。我的jar包对应于C:\Users\liuxi_001\Desktop\中科院汉语分词系统\ICTCLAS2015\sample\JnaTest_NLPIR\lib\jna-4.00.jar.不懂得可以参照压缩包中的pdf,对应目录C:\Users\liuxi_001\Desktop\中科院汉语分词系统\ICTCLAS2015\doc。当提示初始化失败时,把C:\Users\liuxi_001\Desktop\中科院汉语分词系统\ICTCLAS2015\data包copy一下.具体查看日志错误。

package mahout_weixin;
import com.sun.jna.Library;
import com.sun.jna.Native;

public class MBA{
	public interface CLibrary extends Library{
		CLibrary Instance = (CLibrary)Native.loadLibrary("C://Users//liuxi_001//Desktop//20141230101836_ICTCLAS2015//ICTCLAS2015//lib//win64//NLPIR", CLibrary.class);
		public int NLPIR_Init(byte[] sDataPath, int encoding, byte[] sLicenceCode);
		public String NLPIR_ParagraphProcess(String sSrc, int bPOSTagged);
		public String NLPIR_GetKeyWords(String sLine, int nMaxKeyLimit, boolean bWeightOut);
		public void NLPIR_Exit();
	}
	public static void main(String[] args)throws Exception{
		String argu = "";
		String system_charset = "GBK";
		int charset_type = 1;
		int init_flag = CLibrary.Instance.NLPIR_Init(argu.getBytes(system_charset), charset_type, "0".getBytes(system_charset));
		if(0 == init_flag){
			System.err.println("初始化失败!");
			return;
		}
		String input = "东方网12月4日消息:2009年10月21日,辽宁省阜新市委收到举报信,举报以付玉红为首吸毒、强奸、聚众淫乱,阜新市委政法委副书记于洋等参与吸毒、强奸、聚众淫乱等。对此,阜新市委高度重视,责成阜新市公安局立即成立调查组,抽调精干力量展开调查。 调查期间,署名举报人上官宏祥又通过尹东方(女)向阜新市公安局刑警支队提供书面举报,举报于洋等参与吸毒、强奸、聚众淫乱。11月19日,正义网发表上官宏祥接受记者专访,再次实名举报于洋等参与吸毒、强奸、聚众淫乱,引起网民广泛关注。对此辽宁省政法委、省公安厅高度重视。当日,责成有关领导专程赴阜新听取案件调查情况。为加强对案件的督办和指导,省有关部门迅速成立工作组,赴阜新督办、指导案件调查工作,并将情况上报有关部门。 经前一段调查证明,举报事实不存在,上官宏祥行为触犯《刑法》第243条,涉嫌诬告陷害罪。根据《刑事诉讼法》有关规定,阜新市公安局已于11月27日依法立案侦查。 上官宏祥已于2009年12月1日到案,12月2日阜新市海州区人大常委会已依法停止其代表资格,阜新市公安局对其进行刑事拘留,并对同案人尹东方进行监视.";
		String nati = null;
		try {
			nati = CLibrary.Instance.NLPIR_GetKeyWords(input, 10, false);
			System.out.println("提取的结果是:"+nati);
			CLibrary.Instance.NLPIR_Exit();
		} catch (Exception e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		}
		
		
	}
	
}



© 著作权归作者所有

共有 人打赏支持
刘新全
粉丝 11
博文 56
码字总数 29105
作品 0
兰州
程序员
中文分词库--PHPCWS

PHPCWS 是一款开源的PHP中文分词扩展,目前仅支持Linux/Unix系统,该项目现在已改名为 HTTPCWS,此项目不再继续维护。 PHPCWS 先使用“ICTCLAS 3.0 共享版中文分词算法”的API进行初次分词处...

匿名 ⋅ 2009/03/19 ⋅ 0

ICTCLAS分词系统在win7 64 java平台下环境搭建

最近做毕设要用到ICTCLAS分词系统,记录一下这个过程中碰到的问题,希望能有些同学带来帮助。 1、准备工作 下载下面两个包 分词系统包:http://ictclas.nlpir.org/newsdownloads?DocId=352 ...

liangxiao ⋅ 2013/11/26 ⋅ 0

和文本分析有关的问题 我是纯小白 中科院ICTCLAS

大家好,我是今年毕业的应届生小白,公司让做一个功能:搜索热词分析。简单说就是有一个类似于天猫那样的电商平台,用户会在上面输入一系列的搜索词,比如:夏季裙子、短裙。我现在要找出用户...

白露姑娘 ⋅ 2016/08/24 ⋅ 3

开源中文分词系统--HTTPCWS

HTTPCWS是一款Linux下的基于HTTP协议的开源中文分词系统,采用BSD协议。 这个分词系统是对中国科学院计算技术研究所免费提供的 ICTCLAS 3.0 共享版分词后的结果,再采用逆向最大匹配算法,根...

张宴 ⋅ 2009/08/11 ⋅ 0

2014.12.21nlpir ictclas中文分词系统发布

我们拟于2013年12月20日,在北京理工大学召开ICTCLAS的分词用户大会,发布最新版本,ICTCLAS的作者张华平博士将莅临宣讲分词算法的原理,并集中培训分词在Windows,Linux下C/C#/Java调用的各类...

灵玖lingjoin ⋅ 2013/11/27 ⋅ 0

中科院分词工具ICTCLAS Java JNI接口

ICTCLAS,网址:http://www.ictclas.org 中科院计算所ICTCLAS 5.0 ICTCLAS的含义是: Institute of Computing Technology, Chinese Lexical Analysis System (中科院)计算技术研究所,中文词法分......

smilethat ⋅ 2012/03/05 ⋅ 0

中文分词--Ansj

Ansj中文分词 这是一个ictclas的java实现.基本上重写了所有的数据结构和算法.词典是用的开源版的ictclas所提供的.并且进行了部分的人工优化 内存中中文分词每秒钟大约100万字(速度上已经超越...

ansj ⋅ 2012/09/06 ⋅ 2

Lucene中文分词库--ICTCLAS4J

ictclas4j中文分词系统是sinboy在中科院张华平和刘群老师的研制的FreeICTCLAS的基础上完成的一个java开源分词项目,简化了原分词程序的复杂度,旨在为广大的中文分词爱好者一个更好的学习机会...

匿名 ⋅ 2010/10/20 ⋅ 0

关于我使用的分词工具的总结

目前来说我尝试的两大最好用的分词工具:一个是哈工大的ICTCLAS另外一个就是HANLP这两个工具对于我来说都是非常好的。在前期主要使用的是ICTCLAS,这个分词工具现在来说是非常的成熟的。可以...

u012654154 ⋅ 2017/04/21 ⋅ 0

开源的自然语言处理工具

学习自然语言这一段时间以来接触和听说了好多开源的自然语言处理工具,在这里做一下汇总方便自己以后学习,其中有自己使用过的也有了解不是很多的,对于不甚了解的工具以后学习熟悉了会做更新...

javaex999 ⋅ 2014/05/05 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

JavaScript零基础入门——(八)JavaScript的数组

JavaScript零基础入门——(八)JavaScript的数组 欢迎大家回到我们的JavaScript零基础入门,上一节课我们讲了有关JavaScript正则表达式的相关知识点,便于大家更好的对字符串进行处理。这一...

JandenMa ⋅ 今天 ⋅ 0

sbt网络问题解决方案

转自:http://dblab.xmu.edu.cn/blog/maven-network-problem/ cd ~/.sbt/launchers/0.13.9unzip -q ./sbt-launch.jar 修改 vi sbt/sbt.boot.properties 增加一个oschina库地址: [reposit......

狐狸老侠 ⋅ 今天 ⋅ 0

大数据,必须掌握的10项顶级安全技术

我们看到越来越多的数据泄漏事故、勒索软件和其他类型的网络攻击,这使得安全成为一个热门话题。 去年,企业IT面临的威胁仍然处于非常高的水平,每天都会看到媒体报道大量数据泄漏事故和攻击...

p柯西 ⋅ 今天 ⋅ 0

Linux下安装配置Hadoop2.7.6

前提 安装jdk 下载 wget http://mirrors.hust.edu.cn/apache/hadoop/common/hadoop-2.7.6/hadoop-2.7.6.tar.gz 解压 配置 vim /etc/profile # 配置java环境变量 export JAVA_HOME=/opt/jdk1......

晨猫 ⋅ 今天 ⋅ 0

crontab工具介绍

crontab crontab 是一个用于设置周期性被执行的任务工具。 周期性执行的任务列表称为Cron Table crontab(选项)(参数) -e:编辑该用户的计时器设置; -l:列出该用户的计时器设置; -r:删除该...

Linux学习笔记 ⋅ 今天 ⋅ 0

深入Java多线程——Java内存模型深入(2)

5. final域的内存语义 5.1 final域的重排序规则 1.对于final域,编译器和处理器要遵守两个重排序规则: (1)在构造函数内对一个final域的写入,与随后把这个被构造对象的引用赋值给一个引用...

江左煤郎 ⋅ 今天 ⋅ 0

面试-正向代理和反向代理

面试-正向代理和反向代理 Nginx 是一个高性能的反向代理服务器,但同时也支持正向代理方式的配置。

秋日芒草 ⋅ 今天 ⋅ 0

Spring 依赖注入(DI)

1、Setter方法注入: 通过设置方法注入依赖。这种方法既简单又常用。 类中定义set()方法: public class HelloWorldOutput{ HelloWorld helloWorld; public void setHelloWorld...

霍淇滨 ⋅ 昨天 ⋅ 0

马氏距离与欧氏距离

马氏距离 马氏距离也可以定义为两个服从同一分布并且其协方差矩阵为Σ的随机变量之间的差异程度。 如果协方差矩阵为单位矩阵,那么马氏距离就简化为欧氏距离,如果协方差矩阵为对角阵,则其也...

漫步当下 ⋅ 昨天 ⋅ 0

聊聊spring cloud的RequestRateLimiterGatewayFilter

序 本文主要研究一下spring cloud的RequestRateLimiterGatewayFilter GatewayAutoConfiguration @Configuration@ConditionalOnProperty(name = "spring.cloud.gateway.enabled", matchIfMi......

go4it ⋅ 昨天 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部