文档章节

ES权威指南[官方文档学习笔记]-57 Analysis and analyzers

强子大叔的码田
 强子大叔的码田
发布于 2014/05/16 11:50
字数 1417
阅读 400
收藏 0

es:http://www.elasticsearch.org/guide/en/elasticsearch/guide/current/analysis-intro.html

下一页:http://my.oschina.net/qiangzigege/blog/269856

内容

什么叫分析过程?
1)将文本块分词,以倒排索引的方式
2)归一化到标准形式来提高可搜索性。

这个工作的执行者叫做分析器,一个分析器包含以下3个功能:
1)字母过滤
首先,字符串依次通过任何一个字符过滤器,
过滤器的工作是清洗字符串,也就是说先清洗再分词。
一个字符过滤器可以去除HTML字符,也可以转换"&"变为"and".
2)分词
下一步,字符串被分词为很多个单词,一个简单的分词器也许依靠空格或者标点符号来分词。
3)单词过滤
最后,每个单词传给单词过滤器,它们可以将单词小写或者删除单词比如a,and,the,etc.
或者增加单词比如jump和leap.

es提供了很多字符串过滤器,分词器和单词过滤器。
这些单元可以组合起来使用,后面再说。

内置的分析器
尽管如此,es也包含了很多内置的分词器,你可以直接使用。

我们列举了最重要的一些,演示区别。
所用的文本基于:
"Set the shape to semi-transparent by calling set_trans(5)"

标准分析器
标准分析器是es默认的分析器,如果文本可能是各种语言,总的来说选择标准分析器是没错的。
它把文本分成单词(由Unicode决定),移除大部分标点符号,
最终,将所有单词小写化,这样,结果如下:


set, the, shape, to, semi, transparent, by, calling, set_trans, 5
PS:先清洗,再分词,再归一化。

简单analyzer
这个分析器将文本分词的规则是每个字符是不是一个letter,
然后将所有单词小写化,结果如下:

set, the, shape, to, semi, transparent, by, calling, set, trans

空格analyzer
依靠空格来分词,不将单词小写化,
结果如下:
Set, the, shape, to, semi-transparent, by, calling, set_trans(5)

语言分析器
特定语言分析器是可用的,可以处理特殊字符。
比如,英语分析器附带很多英语过滤单词集合,这些集合包括没啥意义的单词。
那分析器就会去掉这些单词,可以对英语单词进行提取词干,
这是因为英语分析器知道英语的语法规则。

结果如下:
set, shape, semi, transpar, call, set_tran, 5
注意:"transparent", "calling", and "set_trans" 已经归一化到词根形式。

什么时候用分析器
当我们索引一个文档,它的整个文档被分析成单词,单词用来创建倒排索引。
尽管如下,当我们搜索全文字段,我们也需要将查询字符串进行同样的分析过程。
实际上也就是说,你之前如何对全文做索引的,这个时候也要对查询字符串做同样的归一化处理。这样才可以保证可以查出来数据。

后面说全文搜索,
当你查询一个全文字段,查询将对查询字符串应用同样的分析器来产生一系列分词后的单词。

当你查询一个具体的字段,查询就不会对查询字符串进行分析,仅仅搜索具体的值。

现在你就理解了之前的:
date字段包含了一个具体的值:一个单词 "2014-09-15".
_all字段是一个全文字段,所以分析器已经把日期分成3个单词: "2014", "09" and "15".
当我们在_all字段里搜索2014,有12个结果,因为都包含2014这个单词。

GET /_search?q=2014              # 12 results

当我们在_all字段里搜索2014-09-15, 首先会把查询字符串分词为"2014", "09" and "15".
仍然包含了12个tweets,因为都包含2014.
GET /_search?q=2014-09-15        # 12 results !

当我们查询date字段,值为2014-09-15, 搜索会寻找具体的日期,结果只有1个:
GET /_search?q=date:2014-09-15   # 1  result

当我们查询date字段,值为2014,就找不到文档。
GET /_search?q=date:2014         # 0  results !


测试分析器
如果你是一个新手,有时会很难理解分词的具体原理和存储索引的过程。
(不看源码你永远不可能知道,just read the fuc*ing source code please!!!)
为了更好的理解怎样运行的,你可以使用分析API来看文本如何分析的。
在查询字符串参数里指定你想用哪个分析器,body里指定分析的文本。

GET /_analyze?analyzer=standard
Text to analyze

结果如下:
{
   "tokens": [
      {
         "token":        "text",
         "start_offset": 0,
         "end_offset":   4,
         "type":         "<ALPHANUM>",
         "position":     1
      },
      {
         "token":        "to",
         "start_offset": 5,
         "end_offset":   7,
         "type":         "<ALPHANUM>",
         "position":     2
      },
      {
         "token":        "analyze",
         "start_offset": 8,
         "end_offset":   15,
         "type":         "<ALPHANUM>",
         "position":     3
      }
   ]
}

这些单词就是真实的被存储在索引里的单词。
position表明单词出现的顺序,
start_offset 和 end_offset 表明 字符在原始文本里的位置。

分析API对于理解es的索引很有用。

指定分析器
当es发现有需要索引的String字段,自动认为是全文字符串字段,用标准分析器来分析。

有的时候你可能不想要这个分析器,纳尼?
也许你想采用一个不同的分析器,因为你觉得它更合适。
也许你还希望一个string字段就是一个字段,不需要认为是全文字段,比如说字符串类型的userid和内部身份。

这个请看下一回合。


 

© 著作权归作者所有

强子大叔的码田

强子大叔的码田

粉丝 922
博文 1496
码字总数 1247433
作品 9
南京
架构师
私信 提问
es不简易指南

1.nested Object mapping及查询 进阶:Elasticsearch之Nested(嵌套)系列、es权威指南-嵌套-查询、es权威指南-嵌套-对象(官方文档中文详细解释) 2.父子文档 进阶:Elasticsearch索引的父子关...

刘阳0292
2017/08/30
0
0
Mac下安装Elasticsearch极简指南

Elasticsearch(以下简称ES)是一个面向文档的实时分布式搜索和分析引擎。本文是在Mac系统下使用Homebrew安装ES+Kibana+Marvel的一份极简指南。 前置条件 想要安装ES的前提是已经在本机安装了J...

郗南枫
2017/11/08
0
0
开源电子书

目录 语言无关类 操作系统 智能系统 分布式系统 编译原理 函数式概念 计算机图形学 WEB服务器 版本控制 编辑器 NoSQL PostgreSQL MySQL 管理和监控 项目相关 设计模式 Web 大数据 编程艺术 ...

zting科技
2017/12/11
0
0
Fanta/free-programming-books-zh_CN

免费的编程中文书籍索引 免费的编程中文书籍索引,欢迎投稿。 国外程序员在 stackoverflow 推荐的程序员必读书籍,中文版。 stackoverflow 上的程序员应该阅读的非编程类书籍有哪些? 中文版...

Fanta
2016/11/14
0
0
Elasticsearch聚合学习之四:结果排序

版权声明:欢迎转载,请注明出处,谢谢。 https://blog.csdn.net/boling_cavalry/article/details/89812169 本文是《Elasticsearch聚合学习》系列的第四篇,在前面的实战中,聚合的结果以桶(...

博陵精骑
2019/05/04
0
0

没有更多内容

加载失败,请刷新页面

加载更多

如何优雅地检测JavaScript中的空闲时间?

是否可以在JavaScript中检测“ 空闲 ”时间? 我的主要用例可能是预取或预加载内容。 空闲时间: 用户不活动或没有使用CPU的时间 #1楼 如果不使用jQuery,则仅使用普通JavaScript: var inac...

技术盛宴
42分钟前
31
0
获取枚举值的属性

我想知道是否可以获取枚举值而不是枚举本身的属性? 例如,假设我有以下枚举: using System.ComponentModel; // for DescriptionAttributeenum FunkyAttributesEnum{ [Description(...

javail
今天
78
0
concurrently 启动多个serve时命令行输出混乱

在script中配置中加入参数 -r "start": "npx concurrently -r \"npm:serve\" \"npm:web\"" 输出比较整洁 输出混乱, 会将有用的信息冲掉...

阿豪boy
今天
48
0
每天AC系列(三):电话号码的字母组合

1 题目 Leetcode第17题。 数字2-9映射字母,给出一个包含字符串的数字,列出字母的所有组合。 2 递归 拿到这样的题目想到了递归实现,创建一个Map映射对应的字母,然后把它传给递归函数,同时...

Blueeeeeee
今天
44
0
Kettle自定义jar包供javascript使用

我们都知道 Kettle 是用 Java 语言开发,并且可以在 JavaScript 里面直接调用 java 类方法。所以有些时候,我们可以自定义一些方法,来供 JavaScript 使用。 本篇文章有参考自:https://www...

CREATE_17
昨天
114
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部