文档章节

ICTCLAS分词系统

刘新全
 刘新全
发布于 2015/06/09 15:56
字数 771
阅读 213
收藏 0

今天在做mahout文本挖掘的时候,看见了一个分词工具的文章,用了一下,很不错。博客原文

http://www.cnblogs.com/zhenyulu/articles/653254.html。

ICTCLAS的官网是http://ictclas.nlpir.org/。下面是我程序。下载的压缩包中包括c/c++,c#,java,python。这些语言有对应的包。里面有详细的pdf文档。可以试一下。记着把jar包导入eclipse。我的jar包对应于C:\Users\liuxi_001\Desktop\中科院汉语分词系统\ICTCLAS2015\sample\JnaTest_NLPIR\lib\jna-4.00.jar.不懂得可以参照压缩包中的pdf,对应目录C:\Users\liuxi_001\Desktop\中科院汉语分词系统\ICTCLAS2015\doc。当提示初始化失败时,把C:\Users\liuxi_001\Desktop\中科院汉语分词系统\ICTCLAS2015\data包copy一下.具体查看日志错误。

package mahout_weixin;
import com.sun.jna.Library;
import com.sun.jna.Native;

public class MBA{
	public interface CLibrary extends Library{
		CLibrary Instance = (CLibrary)Native.loadLibrary("C://Users//liuxi_001//Desktop//20141230101836_ICTCLAS2015//ICTCLAS2015//lib//win64//NLPIR", CLibrary.class);
		public int NLPIR_Init(byte[] sDataPath, int encoding, byte[] sLicenceCode);
		public String NLPIR_ParagraphProcess(String sSrc, int bPOSTagged);
		public String NLPIR_GetKeyWords(String sLine, int nMaxKeyLimit, boolean bWeightOut);
		public void NLPIR_Exit();
	}
	public static void main(String[] args)throws Exception{
		String argu = "";
		String system_charset = "GBK";
		int charset_type = 1;
		int init_flag = CLibrary.Instance.NLPIR_Init(argu.getBytes(system_charset), charset_type, "0".getBytes(system_charset));
		if(0 == init_flag){
			System.err.println("初始化失败!");
			return;
		}
		String input = "东方网12月4日消息:2009年10月21日,辽宁省阜新市委收到举报信,举报以付玉红为首吸毒、强奸、聚众淫乱,阜新市委政法委副书记于洋等参与吸毒、强奸、聚众淫乱等。对此,阜新市委高度重视,责成阜新市公安局立即成立调查组,抽调精干力量展开调查。 调查期间,署名举报人上官宏祥又通过尹东方(女)向阜新市公安局刑警支队提供书面举报,举报于洋等参与吸毒、强奸、聚众淫乱。11月19日,正义网发表上官宏祥接受记者专访,再次实名举报于洋等参与吸毒、强奸、聚众淫乱,引起网民广泛关注。对此辽宁省政法委、省公安厅高度重视。当日,责成有关领导专程赴阜新听取案件调查情况。为加强对案件的督办和指导,省有关部门迅速成立工作组,赴阜新督办、指导案件调查工作,并将情况上报有关部门。 经前一段调查证明,举报事实不存在,上官宏祥行为触犯《刑法》第243条,涉嫌诬告陷害罪。根据《刑事诉讼法》有关规定,阜新市公安局已于11月27日依法立案侦查。 上官宏祥已于2009年12月1日到案,12月2日阜新市海州区人大常委会已依法停止其代表资格,阜新市公安局对其进行刑事拘留,并对同案人尹东方进行监视.";
		String nati = null;
		try {
			nati = CLibrary.Instance.NLPIR_GetKeyWords(input, 10, false);
			System.out.println("提取的结果是:"+nati);
			CLibrary.Instance.NLPIR_Exit();
		} catch (Exception e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		}
		
		
	}
	
}



© 著作权归作者所有

共有 人打赏支持
刘新全
粉丝 13
博文 57
码字总数 29105
作品 0
兰州
程序员
私信 提问
中文分词库--PHPCWS

PHPCWS 是一款开源的PHP中文分词扩展,目前仅支持Linux/Unix系统,该项目现在已改名为 HTTPCWS,此项目不再继续维护。 PHPCWS 先使用“ICTCLAS 3.0 共享版中文分词算法”的API进行初次分词处...

匿名
2009/03/19
7.3K
0
和文本分析有关的问题 我是纯小白 中科院ICTCLAS

大家好,我是今年毕业的应届生小白,公司让做一个功能:搜索热词分析。简单说就是有一个类似于天猫那样的电商平台,用户会在上面输入一系列的搜索词,比如:夏季裙子、短裙。我现在要找出用户...

白露姑娘
2016/08/24
73
3
开源中文分词系统--HTTPCWS

HTTPCWS是一款Linux下的基于HTTP协议的开源中文分词系统,采用BSD协议。 这个分词系统是对中国科学院计算技术研究所免费提供的 ICTCLAS 3.0 共享版分词后的结果,再采用逆向最大匹配算法,根...

张宴
2009/08/11
8.6K
0
ICTCLAS分词系统在win7 64 java平台下环境搭建

最近做毕设要用到ICTCLAS分词系统,记录一下这个过程中碰到的问题,希望能有些同学带来帮助。 1、准备工作 下载下面两个包 分词系统包:http://ictclas.nlpir.org/newsdownloads?DocId=352 ...

liangxiao
2013/11/26
0
0
中科院分词工具ICTCLAS Java JNI接口

ICTCLAS,网址:http://www.ictclas.org 中科院计算所ICTCLAS 5.0 ICTCLAS的含义是: Institute of Computing Technology, Chinese Lexical Analysis System (中科院)计算技术研究所,中文词法分......

smilethat
2012/03/05
0
0

没有更多内容

加载失败,请刷新页面

加载更多

OSChina 周一乱弹 —— 白掌柜说了卖货不卖身

Osc乱弹歌单(2019)请戳(这里) 【今日歌曲】 @爱漫爱 :这是一场修行分享羽肿的单曲《Moony》 手机党少年们想听歌,请使劲儿戳(这里) @clouddyy :开不开心? 开心呀, 我又不爱睡懒觉…...

小小编辑
今天
8
0
大数据教程(11.7)hadoop2.9.1平台上仓库工具hive1.2.2搭建

上一篇文章介绍了hive2.3.4的搭建,然而这个版本已经不能稳定的支持mapreduce程序。本篇博主将分享hive1.2.2工具搭建全过程。先说明:本节就直接在上一节的hadoop环境中搭建了! 一、下载apa...

em_aaron
今天
3
0
开始看《JSP&Servlet学习笔记》

1:WEB应用简介。其中1.2.1对Web容器的工作流程写得不错 2:编写Servlet。搞清楚了Java的Web目录结构,以及Web.xml的一些配置作用。特别是讲了@WebServlet标签 3:请求与响应。更细致的讲了从...

max佩恩
今天
4
0
mysql分区功能详细介绍,以及实例

一,什么是数据库分区 前段时间写过一篇关于mysql分表的的文章,下面来说一下什么是数据库分区,以mysql为例。mysql数据库中的数据是以文件的形势存在磁盘上的,默认放在/mysql/data下面(可...

吴伟祥
今天
3
0
SQL语句查询

1.1 排序 通过order by语句,可以将查询出的结果进行排序。放置在select语句的最后。 格式: SELECT * FROM 表名 ORDER BY 排序字段ASC|DESC; ASC 升序 (默认) DESC 降序 1.查询所有商品信息,...

stars永恒
今天
4
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部