文档章节

Solr5之Schema详解

文心丶雕龙
 文心丶雕龙
发布于 2016/06/22 10:06
字数 1815
阅读 40
收藏 1
点赞 0
评论 0

schema.xml 是用来定义索引数据中的域的,包括域名称,域类型,域是否索引,是否分词,是否存储,是否标准化即 Norms ,是否存储项向量等等。

schema.xml 配置文件的根元素就是 schema, 有个 name 属性, name 属性值可以随便配,根元素没什么好说的, schema 元素下主要有两个标签元素即 field 和 fieldType,field 表示域,用来定义域, fieldType 用来定义域类型。

field 元素有很多属性可以配置,我一一做个解释:

name: 表示域的名称,是强制必须有的属性

type: 域类型的名称,与 fieldType 元素的 name 属性值对应,也是强制必须有的属性,不可省略

indexed: true 即表示需要对该域进行索引,一般如果你需要在该域上进行查询或排序时,则需要配置为 true, 默认值为 false

stored: 表示是否需要把域值存储到硬盘上,方便你后续查询时能再次提取出来原样显示给用户

docValues: 表示此域是否需要添加一个 docValues 域,这对 facet 查询, group 分组,排序, function 查询有好处,尽管这个属性不是必须的,但他能加快索引数据加载,对 NRT 近实时搜索比较友好,且更节省内存,但它也有一些限制,比如当前 docValues 域只支持 strField,UUIDField,Trie*Field 等域,且要求域的域值是单值不能是多值域

multiValued: 表示这个域是否可以存储多个值,若设置为 true, 即表示这是一个多值域

omitNorms: 此属性若设置为 true ,即表示将忽略域值的长度标准化,忽略在索引过程中对当前域的权重设置,且会节省内存。只有全文本域或者你需要在索引创建过程中设置域的权重时才需要把这个值设为 false, 对于基本数据类型且不分词的域如 intFeild,longField,StrField 等默认此属性值就是 true, 否则默认就是 false.

termVectors: 设置为 true 即表示需要为该 field 存储项向量信息,当你需要 MoreLikeThis 功能时,则需要将此属性值设为 true ,这样会带来一些性能提升。

termPositions: 是否存储 Term 的起始位置信息,这会增大索引的体积,但高亮功能需要依赖此项设置,否则无法高亮

termOffsets: 表示是否存储索引的位置偏移量,高亮功能需要此项配置,当你使用 SpanQuery 时,此项配置会影响匹配的结果集

field 里还有两个比较难理解的域,是 Solr 扩展的,在 Lucene 中没有的概念,即 dynamicField 动态域和 copyField 复制域:

动态域的属性配置跟普通的 field 差不多就不多说了,唯一有点区别就是 name 的属性值,可以用通配符,这样就可以模糊匹配多个域啦,这样设计的目的就是不用频繁的去修改我们的 schema.xml 中的 field 配置去增加 field 域啦,比如之前有个 link_s 域,某一天你想再增加一个 url_s 域,那你就需要去修改 schema.xml 配置文件,由于 schema.xml 修改过后需要重启 tomcat 才能生效,重启即意味着程序的中断,这往往是不可接受的。所以引入动态域来避免频繁添加修改域,但前提是你的域需要符合你提前定义的动态域的域名称命名规则哦。

复制域即表示把某个域的值复制到一个目标域上面,那如果把多个域的值复制到一个目标域上面呢,你可以进行多次复制,体现到 XML 配置上就是类似这样的配置:

<copyField source="title" dest="text"/>

<copyField source="body" dest="text"/>

如上配置就表示把 title 和 body 这两个域的值全部复制到 text 这个新域上面,唯一要注意的是,如果你只是复制单个域,那么如果你被复制域本身就是多值域,那么目标域也是多值域,这毋庸置疑,那如果你复制的是多个域,只要其中有一个域是多值域,那么目标域就一定是多值域,这点一定要谨记。

field 说完了,接着说说 fieldType 元素,它用来定义域类型, solr 内置的域类型有 StrField , BoolField , TrieIntField , TrieFloatField , TrieLongField , TrieDoubleField , TrieDateField , BinaryField , RandomSortField , TextField 等,其他更多域类型请自己查阅 Solr API 文档。

StrField: 这是一个不分词的字符串域,它支持 docValues 域,但当为其添加了 docValues 域,则要求只能是单值域且该域必须存在或者该域有默认值

BoolField : boolean 域,对应 true/false

TrieIntField, TrieFloatField, TrieLongField, TrieDoubleField 这几个都是默认的数字域, precisionStep 属性一般用于数字范围查询, precisionStep 值越小,则索引时该域的域值分出的 token 个数越多,会增大硬盘上索引的体积,但它会加快数字范围检索的响应速度, positionIncrementGap 属性表示如果当前域是多值域时,多个值之间的间距,单值域,设置此项无意义。

TrieDateField :显然这是一个日期域类型,不过遗憾的是它支持 1995-12-31T23:59:59Z 这种格式的日期,比较坑爹,为此我自定义了一个 TrieCNDateField 域类型,用于支持国人比较喜欢的 yyyy-MM-dd HH:mm:ss 格式的日期。源码请参见我的上一篇博客。

BinaryField :经过 base64 编码的字符串域类型,即你需要把 binary 数据进行 base64 编码才能被 solr 进行索引。

RandomSortField :随机排序域类型,当你需要实现伪随机排序时,请使用此域类型。

TextField :是用的最多的一种域类型,它需要进行分词,所以它一般需要配置分词器

。至于具体它如何配置 IK 分词器,留到后续再说,这里就不展开了。

最后需要说的就是 uniqueKey 元素,它用来配置 document 的唯一标识域,即 solr 是用此域来决定增量导入时是否重复导入,如果 id 一样,则不会重复导入,或者当你更新索引时,你可以根据指定的 uniqueKey 域,来确定一个 document ,然后对该 document 进行更新。总之,它是用来唯一确定一个 document 的,跟数据库表里的主键 id 概念类似,前提是你 uniqueKey 里配置的域名称你需要提前使用 field 元素进行定义。

fieldType 元素还有一些额外的属性也需要注意下,比如 sortMissingFirst,sortMissingLast 等:  

sortMissingLast 表示如果域值为 null, 在根据当前域进行排序时,把包含 null 值的 document 排在最后一位,

sortMissingFirst :与 sortMissingLast 对应的,不言自明了,你应该懂的。

docValues :表示是否为 docValues 域,一般排序, group,facet 时会用到 docValues 域。

OK , schema.xml 配置就说这么多了,希望有所帮助

本文转载自:http://iamyida.iteye.com/blog/2213354

共有 人打赏支持
文心丶雕龙
粉丝 8
博文 43
码字总数 30481
作品 0
杭州
程序员
solr5.3.1 添加中文分词之IKAnalyzer

特别注意:solr版本对应的分词jar包的版本是不一样的,此处5.3.1的分词jar包版本在 https://github.com/EugenePig/ik-analyzer-solr5 可以下载,需要使用maven打包 based on IK Analyer 2012...

Fraud ⋅ 2016/01/06 ⋅ 1

solr7.0 中文分词+拼音分词

资料准备 • solr7.0下载 • IK分词器下载 • 拼音分词器下载 solr文件目录(只讲一下7有些变化的目录) • web目录 : solr7/server/solr_webapp/webapp/ • home目录 : solr7/server/solr • ...

supersyd ⋅ 03/12 ⋅ 0

Solr5安装配置

Solr安装配置 一、Oracle VM VirtualBox配置 1、 网络 2、 修改网络ip cd /etc/sysconfig/network-scripts/ vim ifcfg-enp0s3 TYPE=Ethernet BOOTPROTO=static DEFROUTE=yes PEERDNS=yes PE......

古三哥 ⋅ 2016/08/19 ⋅ 0

求MYSQL数据库中关于CREATE SCHEMA的详解

如题。 求MYSQL数据库中关于CREATE SCHEMA的详解! 我是刚开始接触MYSQL 和 PHP ,今天看到MYSQL文档中的CREATE DATABASE语句中有一个CREATE SCHEMA,在网上找了一圈还是没找到比较能理解的答...

玩玩灬而已 ⋅ 2012/04/21 ⋅ 2

技术分享:如何用Solr搭建大数据查询平台

0×00 开头照例扯淡 自从各种脱裤门事件开始层出不穷,在下就学乖了,各个地方的密码全都改成不一样的,重要帐号的密码定期更换,生怕被人社出祖宗十八代的我,甚至开始用起了假名字,我给自己起一...

广岛秋泽 ⋅ 2016/03/30 ⋅ 0

solr5.2.1+tomcat8.0.23+zookeeper3.4.6

提示: 1.本文中用到的solr,tomcat,zk都是相对于此博客最新的版本,solr的每个大版本的变更都无法完美的向前兼容,所以这次的solr5和solr4也是一样。 2.本次是在一台机器上部署3个zk,4个t...

chaney ⋅ 2015/07/30 ⋅ 0

Solr之中文分词的配置

一、ik包配置 ik-analyzer-solr5-5.x.jar这个jar包放入solr项目下的WEB-INFlib目录中去,将IKAnalyzer.cfg.xml,mydict.dic(搜狗的扩展词库),stopword.dic放在solr项目下的WEB-INFclasse...

小兵成长记 ⋅ 2016/11/15 ⋅ 0

xsi:schemaLocation详解

xsi:schemaLocation详解 在实例中引用模式文档 XML Schema提供了两个在实例文档中使用的特殊属性,用于指出模式文档的位置。这两个属性是:xsi:schemaLocation和xsi:noNamespaceSchemaLocati...

zmf ⋅ 2014/09/16 ⋅ 0

活动目录拓展详解

一:前言 安装SCCM、Exchange、OCS时都要进行“Extend the AD Schema”,拓展架构一定是在架构主机(Schema Master)上进行的。当让我们不是每天都需要对活动目录进行拓展,但是活动目录属于...

像教授 ⋅ 2017/11/26 ⋅ 0

oracle impdp的table_exists_action详解

oracle impdp的tableexistsaction详解 1 tableexistsaction参数说明 使用imp进行数据导入时,若表已经存在,要先drop掉表,再进行导入。 而使用impdp完成数据库导入时,若表已经存在,有四种...

日久不生情 ⋅ 2017/11/14 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

SpringBoot集成Druid的最简单的小示例

参考网页 https://blog.csdn.net/king_is_everyone/article/details/53098350 建立maven工程 Pom文件 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM......

karma123 ⋅ 55分钟前 ⋅ 0

Java虚拟机基本结构的简单记忆

Java堆:一般是放置实例化的对象的地方,堆分新生代和老年代空间,不断未被回收的对象越老,被放入老年代空间。分配最大堆空间:-Xmx 分配初始堆空间:-Xms,分配新生代空间:-Xmn,新生代的大小一...

算法之名 ⋅ 今天 ⋅ 0

OSChina 周日乱弹 —— 这么好的姑娘都不要了啊

Osc乱弹歌单(2018)请戳(这里) 【今日歌曲】 @TigaPile :分享曾惜的单曲《讲真的》 《讲真的》- 曾惜 手机党少年们想听歌,请使劲儿戳(这里) @首席搬砖工程师 :怎样约女孩子出来吃饭,...

小小编辑 ⋅ 今天 ⋅ 7

Jenkins实践3 之脚本

#!/bin/sh# export PROJ_PATH=项目路径# export TOMCAT_PATH=tomcat路径killTomcat(){pid=`ps -ef | grep tomcat | grep java|awk '{print $2}'`echo "tom...

晨猫 ⋅ 今天 ⋅ 0

Spring Bean的生命周期

前言 Spring Bean 的生命周期在整个 Spring 中占有很重要的位置,掌握这些可以加深对 Spring 的理解。 首先看下生命周期图: 再谈生命周期之前有一点需要先明确: Spring 只帮我们管理单例模...

素雷 ⋅ 今天 ⋅ 0

zblog2.3版本的asp系统是否可以超越卢松松博客的流量[图]

最近访问zblog官网,发现zlbog-asp2.3版本已经进入测试阶段了,虽然正式版还没有发布,想必也不久了。那么作为aps纵横江湖十多年的今天,blog2.2版本应该已经成熟了,为什么还要发布这个2.3...

原创小博客 ⋅ 今天 ⋅ 0

聊聊spring cloud的HystrixCircuitBreakerConfiguration

序 本文主要研究一下spring cloud的HystrixCircuitBreakerConfiguration HystrixCircuitBreakerConfiguration spring-cloud-netflix-core-2.0.0.RELEASE-sources.jar!/org/springframework/......

go4it ⋅ 今天 ⋅ 0

二分查找

二分查找,也称折半查找、二分搜索,是一种在有序数组中查找某一特定元素的搜索算法。搜素过程从数组的中间元素开始,如果中间元素正好是要查找的元素,则搜素过程结束;如果某一特定元素大于...

人觉非常君 ⋅ 今天 ⋅ 0

VS中使用X64汇编

需要注意的是,在X86项目中,可以使用__asm{}来嵌入汇编代码,但是在X64项目中,再也不能使用__asm{}来编写嵌入式汇编程序了,必须使用专门的.asm汇编文件来编写相应的汇编代码,然后在其它地...

simpower ⋅ 今天 ⋅ 0

ThreadPoolExecutor

ThreadPoolExecutor public ThreadPoolExecutor(int corePoolSize, int maximumPoolSize, long keepAliveTime, ......

4rnold ⋅ 昨天 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部