文档章节

Lucene-分词器(三)

StayY
 StayY
发布于 2017/01/03 22:37
字数 1024
阅读 53
收藏 0

1.什么是分词

分词器能以某种规则对关键字进行分词,将分好的词放到目录中,以作为检索到的条件,在创建索引时会使用到分词器,在搜索时也将用到分词器。

2.分词器的一般工作流程

2.1切分关键词

2.2去除停用词

2.3对于英文单词,把所有字母转为小写

拿我所用的ik分词器为例

IKAnalyzer.cfg.xml

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>
	<comment>IK Analyzer 扩展配置</comment>

	<!-- 用户可以在这里配置自己的扩展字典 -->
	<entry key="ext_dict">/mydict.dic</entry>


	<!--用户可以在这里配置自己的扩展停止词字典 -->
	<entry key="ext_stopwords">/surname.dic</entry>


</properties>

他运行时会自动加载这两个文件(这两个文件位置要和这个xml文件在同一地方)

3.Ik分词器

ik分词器自2012年后就暂停更新,而lucene却在不断的更新,导致ik分词器在新版本的lucene中使用会出现错误,所以出现Ik重构的代码来消除这个错误

首先引入依赖

'''
        <dependency>
            <groupId>com.janeluo</groupId>
            <artifactId>ikanalyzer</artifactId>
            <version>2012_u6</version>
        </dependency>
'''

分词器的核心类Analyzer,TokenStream,Tokenizer,TokenFilter.

Analyzer

Lucene中的分词器有StandardAnalyzer,StopAnalyzer,SimpleAnalyzer,WhitespaceAnalyzer.

TokenStream

分词器做好处理之后得到的一个流,这个流中存储了分词的各种信息.可以通过TokenStream有效的获取到分词单元

Tokenizer

主要负责接收字符流Reader,将Reader进行分词操作.

TokenFilter

将分好词的语汇单元进行各种各样的过滤.

代码是网上找的,如果你是作者请联系我 附上署名

有两个文件 MyIKTokenizer和MyIkAnalyzer

package net.begincode.lucene.analyzer;

import java.io.IOException;
import java.io.Reader;

import org.apache.lucene.analysis.Tokenizer;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
import org.apache.lucene.analysis.tokenattributes.OffsetAttribute;
import org.apache.lucene.analysis.tokenattributes.TypeAttribute;
import org.wltea.analyzer.core.IKSegmenter;
import org.wltea.analyzer.core.Lexeme;


public class MyIKTokenizer extends Tokenizer {
    // IK分词器实现
    private IKSegmenter _IKImplement;

    // 词元文本属性
    private final CharTermAttribute termAtt;
    // 词元位移属性
    private final OffsetAttribute offsetAtt;
    // 词元分类属性(该属性分类参考org.wltea.analyzer.core.Lexeme中的分类常量)
    private final TypeAttribute typeAtt;
    // 记录最后一个词元的结束位置
    private int endPosition;

    public MyIKTokenizer(Reader in) {
        this(in, false);
    }

    public MyIKTokenizer(Reader in, boolean useSmart) {
        offsetAtt = addAttribute(OffsetAttribute.class);
        termAtt = addAttribute(CharTermAttribute.class);
        typeAtt = addAttribute(TypeAttribute.class);
        _IKImplement = new IKSegmenter(input, useSmart);
    }

    @Override
    public boolean incrementToken() throws IOException {
        // 清除所有的词元属性
        clearAttributes();
        Lexeme nextLexeme = _IKImplement.next();
        if (nextLexeme != null) {
            // 将Lexeme转成Attributes
            // 设置词元文本
            termAtt.append(nextLexeme.getLexemeText());
            // 设置词元长度
            termAtt.setLength(nextLexeme.getLength());
            // 设置词元位移
            offsetAtt.setOffset(nextLexeme.getBeginPosition(),
                    nextLexeme.getEndPosition());
            // 记录分词的最后位置
            endPosition = nextLexeme.getEndPosition();
            // 记录词元分类
            typeAtt.setType(nextLexeme.getLexemeTypeString());
            // 返会true告知还有下个词元
            return true;
        }
        // 返会false告知词元输出完毕
        return false;
    }

    public void reset() throws IOException {
        super.reset();
        _IKImplement.reset(input);
    }

    @Override
    public final void end() {
        // set final offset
        int finalOffset = correctOffset(this.endPosition);
        offsetAtt.setOffset(finalOffset, finalOffset);
    }

}

为什么要使用MyIKTokenizer来继承Tokenizer 因为在原有的IKTokenizer中里面多了一个

super(in);这段代码 而5.0以上版本的Lucene的父类中已经取消了这个构造方法

package net.begincode.lucene.analyzer;

import java.io.Reader;
import java.io.StringReader;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.util.IOUtils;


public class MyIkAnalyzer extends Analyzer {
    @Override
    protected TokenStreamComponents createComponents(String arg0) {
        Reader reader = null;
        try {
            reader = new StringReader(arg0);
            MyIKTokenizer it = new MyIKTokenizer(reader);
            return new Analyzer.TokenStreamComponents(it);
        } finally {
            IOUtils.closeWhileHandlingException(reader);
        }
    }
}

其中的createComponents方法是继承Luecene的Analyzer接口的,由于Lucene5.0里把createComponents方法的第二个参数去掉了,所以需要对该方法做如上修改

4.分词测试类

import java.io.StringReader;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;

import net.begincode.lucene.util.MyIkAnalyzer;
/**
 * 
 * @author Stay
 *
 */
public class TestAnalyzer {

	private static void testAnalyzer(Analyzer analyzer,String text) throws Exception{
		System.out.println("当前使用的分词器:"+analyzer.getClass());
		TokenStream tokenStream = analyzer.tokenStream("content", new StringReader(text));
		CharTermAttribute cta = tokenStream.addAttribute(CharTermAttribute.class);
		tokenStream.reset();  //必须先调用reset方法
		while(tokenStream.incrementToken()){
			System.out.println(cta);
		}
	}
	public static void main(String[] args) throws Exception{
		Analyzer analyzer = new MyIkAnalyzer();
		testAnalyzer(analyzer, "begincode社区,java初学者");
	}
	
}

输出

当前使用的分词器:class net.begincode.lucene.util.MyIkAnalyzer
加载扩展词典:mydict.dic
加载扩展停止词典:surname.dic
begincode
社区
java
初学者
初学
学者

5.总结

好的分词器需要不断的摸索,实践而产生的。不同的领域有不同的分词技术。 国内也有一些商业化的分词组件,要真正好用的分词器,还是得花一些钱。

lucene5.4.1所有代码和拓展代码地址:https://github.com/StayY/begincodeLucene

© 著作权归作者所有

StayY
粉丝 0
博文 38
码字总数 21515
作品 0
南昌
程序员
私信 提问
Lucene4.3开发之第四步之脱胎换骨(四)

前面几章把lucene基本入门的任督二脉给打通了,从此篇开始,就开始进行lucene的进阶开发了,那么首先摆在我们前面的第一个必须要解决的问题,就是关于中文分词的问题,因为lucene毕竟是国外大...

heroShane
2014/02/21
261
1
lucene4.7 分词器(三)

前面几章笔者把Lucene基本入门的任督二脉给打通了,从此篇开始,就开始进行Lucene的进阶开发了,那么首先摆在我们面前的第一个必须要解决的问题,就是关于中文分词的问题,因为Lucene毕竟是国...

一枚Sir
2014/04/10
1K
0
lucene StandardAnalyzer

lucene 版本5.2.1 在使用lucene StandardAnalyzer(标准分词器)针对生物文本进行分词索引的时候,”Lucene-PMC“像这样的词汇会被拆分为: 1:[Lucene]:(0-->6): 2:[PMC]:(7-->10): 英文标准分...

yimi
2016/11/03
118
0
lucene集成IK实现中文分词检索

接上篇,解决lucene中文分词问题。 这里采用IK分词器。 IKAnalyzer2012u5.zip下载地址:http://code.google.com/p/ik-analyzer/downloads/detail?name=IKAnalyzer2012u5.zip&can=2&q= 解压缩......

萝卜丁辣子
2012/09/20
1K
0
Lucene4.3开发之第三步之温故知新(三)

本篇就对lucene的基本知识进行一个总结,以便于加深对lucene基本api组件的理解。 1、IndexWriter:是索引过程的核心类,主要负责创建索引或者打开已有索引,提供索引的增删改等操作。 2、Ind...

heroShane
2014/02/20
181
0

没有更多内容

加载失败,请刷新页面

加载更多

3_数组

3_数组

行者终成事
41分钟前
7
0
经典系统设计面试题解析:如何设计TinyURL(二)

原文链接:https://www.educative.io/courses/grokking-the-system-design-interview/m2ygV4E81AR 编者注:本文以一道经典的系统设计面试题:《如何设计TinyURL》的参考答案和解析为例,帮助...

APEMESH
今天
7
0
使用logstash同步MySQL数据到ES

概述   在生成业务常有将MySQL数据同步到ES的需求,如果需要很高的定制化,往往需要开发同步程序用于处理数据。但没有特殊业务需求,官方提供的logstash就很有优势了。   在使用logstas...

zxiaofan666
今天
10
0
X-MSG-IM-分布式信令跟踪能力

经过一周多的鏖战, X-MSG-IM的分布式信令跟踪能力已基本具备, 特点是: 实时. 只有要RX/TX就会实时产生信令跟踪事件, 先入kafka, 再入influxdb待查. 同时提供实时sub/pub接口. 完备. 可以完整...

dev5
今天
7
0
OpenJDK之CyclicBarrier

OpenJDK8,本人看的是openJDK。以前就看过,只是经常忘记,所以记录下 图1 CyclicBarrier是Doug Lea在JDK1.5中引入的,作用就不详细描述了,主要有如下俩个方法使用: await()方法,如果当前线...

克虏伯
今天
8
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部