文档章节

ICTCLAS分词系统

刘新全
 刘新全
发布于 2015/06/09 15:56
字数 771
阅读 209
收藏 0

今天在做mahout文本挖掘的时候,看见了一个分词工具的文章,用了一下,很不错。博客原文

http://www.cnblogs.com/zhenyulu/articles/653254.html。

ICTCLAS的官网是http://ictclas.nlpir.org/。下面是我程序。下载的压缩包中包括c/c++,c#,java,python。这些语言有对应的包。里面有详细的pdf文档。可以试一下。记着把jar包导入eclipse。我的jar包对应于C:\Users\liuxi_001\Desktop\中科院汉语分词系统\ICTCLAS2015\sample\JnaTest_NLPIR\lib\jna-4.00.jar.不懂得可以参照压缩包中的pdf,对应目录C:\Users\liuxi_001\Desktop\中科院汉语分词系统\ICTCLAS2015\doc。当提示初始化失败时,把C:\Users\liuxi_001\Desktop\中科院汉语分词系统\ICTCLAS2015\data包copy一下.具体查看日志错误。

package mahout_weixin;
import com.sun.jna.Library;
import com.sun.jna.Native;

public class MBA{
	public interface CLibrary extends Library{
		CLibrary Instance = (CLibrary)Native.loadLibrary("C://Users//liuxi_001//Desktop//20141230101836_ICTCLAS2015//ICTCLAS2015//lib//win64//NLPIR", CLibrary.class);
		public int NLPIR_Init(byte[] sDataPath, int encoding, byte[] sLicenceCode);
		public String NLPIR_ParagraphProcess(String sSrc, int bPOSTagged);
		public String NLPIR_GetKeyWords(String sLine, int nMaxKeyLimit, boolean bWeightOut);
		public void NLPIR_Exit();
	}
	public static void main(String[] args)throws Exception{
		String argu = "";
		String system_charset = "GBK";
		int charset_type = 1;
		int init_flag = CLibrary.Instance.NLPIR_Init(argu.getBytes(system_charset), charset_type, "0".getBytes(system_charset));
		if(0 == init_flag){
			System.err.println("初始化失败!");
			return;
		}
		String input = "东方网12月4日消息:2009年10月21日,辽宁省阜新市委收到举报信,举报以付玉红为首吸毒、强奸、聚众淫乱,阜新市委政法委副书记于洋等参与吸毒、强奸、聚众淫乱等。对此,阜新市委高度重视,责成阜新市公安局立即成立调查组,抽调精干力量展开调查。 调查期间,署名举报人上官宏祥又通过尹东方(女)向阜新市公安局刑警支队提供书面举报,举报于洋等参与吸毒、强奸、聚众淫乱。11月19日,正义网发表上官宏祥接受记者专访,再次实名举报于洋等参与吸毒、强奸、聚众淫乱,引起网民广泛关注。对此辽宁省政法委、省公安厅高度重视。当日,责成有关领导专程赴阜新听取案件调查情况。为加强对案件的督办和指导,省有关部门迅速成立工作组,赴阜新督办、指导案件调查工作,并将情况上报有关部门。 经前一段调查证明,举报事实不存在,上官宏祥行为触犯《刑法》第243条,涉嫌诬告陷害罪。根据《刑事诉讼法》有关规定,阜新市公安局已于11月27日依法立案侦查。 上官宏祥已于2009年12月1日到案,12月2日阜新市海州区人大常委会已依法停止其代表资格,阜新市公安局对其进行刑事拘留,并对同案人尹东方进行监视.";
		String nati = null;
		try {
			nati = CLibrary.Instance.NLPIR_GetKeyWords(input, 10, false);
			System.out.println("提取的结果是:"+nati);
			CLibrary.Instance.NLPIR_Exit();
		} catch (Exception e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		}
		
		
	}
	
}



© 著作权归作者所有

共有 人打赏支持
刘新全
粉丝 12
博文 57
码字总数 29105
作品 0
兰州
程序员
中文分词库--PHPCWS

PHPCWS 是一款开源的PHP中文分词扩展,目前仅支持Linux/Unix系统,该项目现在已改名为 HTTPCWS,此项目不再继续维护。 PHPCWS 先使用“ICTCLAS 3.0 共享版中文分词算法”的API进行初次分词处...

匿名
2009/03/19
7.3K
0
和文本分析有关的问题 我是纯小白 中科院ICTCLAS

大家好,我是今年毕业的应届生小白,公司让做一个功能:搜索热词分析。简单说就是有一个类似于天猫那样的电商平台,用户会在上面输入一系列的搜索词,比如:夏季裙子、短裙。我现在要找出用户...

白露姑娘
2016/08/24
54
3
2014.12.21nlpir ictclas中文分词系统发布

我们拟于2013年12月20日,在北京理工大学召开ICTCLAS的分词用户大会,发布最新版本,ICTCLAS的作者张华平博士将莅临宣讲分词算法的原理,并集中培训分词在Windows,Linux下C/C#/Java调用的各类...

灵玖lingjoin
2013/11/27
0
0
开源中文分词系统--HTTPCWS

HTTPCWS是一款Linux下的基于HTTP协议的开源中文分词系统,采用BSD协议。 这个分词系统是对中国科学院计算技术研究所免费提供的 ICTCLAS 3.0 共享版分词后的结果,再采用逆向最大匹配算法,根...

张宴
2009/08/11
8.6K
0
ICTCLAS分词系统在win7 64 java平台下环境搭建

最近做毕设要用到ICTCLAS分词系统,记录一下这个过程中碰到的问题,希望能有些同学带来帮助。 1、准备工作 下载下面两个包 分词系统包:http://ictclas.nlpir.org/newsdownloads?DocId=352 ...

liangxiao
2013/11/26
0
0

没有更多内容

加载失败,请刷新页面

加载更多

OSX | SafariBookmarksSyncAgent意外退出解决方法

1. 启动系统, 按住⌘-R不松手2. 在实用工具(Utilities)下打开终端,输入csrutil disable, 然后回车; 你就看到提示系统完整性保护(SIP: System Integrity Protection)已禁用3. 输入reboot回车...

云迹
今天
4
0
面向对象类之间的关系

面向对象类之间的关系:is-a、has-a、use-a is-a关系也叫继承或泛化,比如大雁和鸟类之间的关系就是继承。 has-a关系称为关联关系,例如企鹅在气候寒冷的地方生活,“企鹅”和“气候”就是关...

gackey
今天
4
0
读书(附电子书)|小狗钱钱之白色的拉布拉多

关注公众号,在公众号中回复“小狗钱钱”可免费获得电子书。 一、背景 之前写了一篇文章 《小狗钱钱》 理财小白应该读的一本书,那时候我才看那本书,现在看了一大半了,发现这本书确实不错,...

tiankonguse
今天
4
0
Permissions 0777 for ‘***’ are too open

异常显示: @@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@ @ WARNING: UNPROTECTED PRIVATE KEY FILE! @ @@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@ ......

李玉长
今天
5
0
区块链10年了,还未落地,它失败了吗?

导读 几乎每个人,甚至是对通证持怀疑态度的人,都对区块链的技术有积极的看法,因为它有可能改变世界。然而,区块链技术问世已经10年了,我们仍然没有真正的用上区块链技术。 几乎每个人,甚...

问题终结者
今天
4
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部