文档章节

SolrCloud集群Collection进行手动二次Sharding--solr分片相关

 毛朱
发布于 2015/08/30 23:03
字数 1063
阅读 3.4K
收藏 2

3 月,跳不动了?>>>

SolrCloud集群Collection进行手动二次Sharding

http://blog.csdn.net/shirdrn/article/details/9770829

 

一致性hash和solr千万级数据分布式搜索引擎中的应用

http://www.lanceyan.com/tech/arch/consistenthashing_and_solr.html


 SolrCloud中的文件与Collection管理

http://www.codeweblog.com/solrcloud中的文件与collection管理/ 


solrCloud路由

SolrCloud路由

SolrCloud中,提供了两种路由算法:

compositeIdimplicit 在创建Collection时,需要通过router.name指定路由策略,默认为compositeId路由


compositeId

路由为一致性哈希路由,shards的哈希范围从80000000~7fffffff。初始创建collection是必须指定numShards,compositeId路由算法根据numShards的个数,计算出每个shard的哈希范围,因此路由策略不可以扩展shard。

implicit

路由方式指定索引具体落在路由到哪个Shard,这与compositeId路由方式索引可均匀分布在每个shard上不同。同时只有在implicit路由策略下才可创建shard

利用solrJ新建索引时,需要在代码中指定索引具体落在哪个shard上,添加代码:

doc.addField("_route_", "shard_X");

同时在schema.xml添加字段

<field name="_route_" type="string"/>

利用URL创建implicit路由方式collection:

http://10.21.17.200:9580/solr-5.0.0-web/admin/collections?action=CREATE&name=testimplicit&router.name=implicit&shards=shard1,shard2,shard3

SolrRouter源码

Solr源码中,可以看到,Solr路由的基类为DocRouter抽象类,HashBasedRouter和ImplicitDouter继承自DocRouter,同时CompositeIdRouter又继承HashBasedRouter抽象类,通过一个工具Hash类实现Document的路由策略。

创建Collection

Solr创建Collection的两种方式:

通过前台界面Add Core创建collection

由于在tomcat,setenv.sh,设置-DnumShards=7,所以该collection有7个shards。

需要注意的是:使用compositeId路由创建collection,指定numShards后,不可扩展Shard,即使勉强增加Shard,新建索引也不会落在该Shard上。查看clusterstate.json,可看到新建shard的"range":null

URL创建collection
通过URL创建collection需要满足条件:num of (shards + replications)< num of live nodes

 

测试环境中3台solr机器,创建collection URL为:

http://10.21.17.200:9580/solr-4.10.0/admin/collections?action=CREATE&name=collection1&router.name=compositeId&numShards=5&replicationFactor=1

执行结果报错

<str name="Operation createcollection caused exception:">

org.apache.solr.common.SolrException:org.apache.solr.common.SolrException:Cannot create collection collection1. Value of maxShardsPerNode is 1, and thenumber of live nodes is 3. This allows a maximum of 3 to be created. Value ofnumShards is 5 and value of replicationFactor is 1. This requires 5 shards tobe created (higher than the allowed number)

</str>

报错原因不满足 5 + 1 < 3

数据迁移

在某些场景中,需要对SolrCloud进行扩容或数据迁移。

根据以上讨论的两种路由算法,implicit实现该需求比较简单,只要创建Shard即可,新建索引时,将索引建到新建Shard上,查询操作,指定collection名称,得到的仍是整个集群返回的结果。

compositeId路由实现上述需求稍微麻烦一下,通过分裂(SPLITSHARD)操作实现。如下图,对Shard1进行分裂,分裂URL为:

http://10.21.17.200:9580/solr-4.10.0-web/admin/collections?action=SPLITSHARD&collection=log4j201503&shard=shard1此时Shard1的数据会平均分布到shard1_0和shard1_1上,在利用DELETESHARD API删除Shard1,即可保证数据不冗余


 

关于SolrCloud的索引分片和查询的可增强点 

Solr4.0包含了分布式的sorl解决方案solrCloud,可以做sharding切分,每个sharding中节点支持选举算法(leader,replica),在sharding里面支持query的负载均衡。
在集群启动时,就需要声明当shard、collection等信息,启动过程中把集群的状态信息维护在zookeeper节点里。
集群中的任何一台server都可以响应客户端的请求,包括索引操作和查询操作。

对于索引操作,solrCloud提供了简单的分片算法,即根据当前的索引记录的ID值做hash操作,后根据zookeeper中维护的集群的相关状态(Collection,RangeInfo,Range<min,max>)去查找hash值在哪个Range中,找到对应的shard;在该shard中 leader 中建立索引,Leader节点更新结束完成,最后将版本号和文档转发给同属于一个Shard的replicas节点。不过在建立索引时,shard的算法没有考虑到负载均衡,有可能往一个shard中一直插入,所以需要自己考虑进行shard的切分负载均衡。

 

本文转载自:

下一篇: 字符串相似度
粉丝 20
博文 152
码字总数 170695
作品 0
济南
私信 提问
加载中

评论(0)

SolrCloud4.9+zookeeper在CentOS上的搭建与安装

Apache SolrCloud安装 SolrCloud通过ZooKeeper集群来进行协调,使一个索引进行分片,各个分片可以分布在不同的物理节点上,多个物理分片组成一个完成的索引Collection。SolrCloud自动支持Sol...

翊骷
2014/09/17
1.6K
0
【SolrCloud】——SolrCloud集群介绍

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/fjj15732621696/article/details/81056015 什么是solrcloud solrcloud(solr云)是solr提供的分布式搜索方案,...

DD_Davina
2018/07/15
0
0
【Solr】- SolrCloud 基础操作

SolrCloud solr基于Zookeeper协调组件搭建的分布式搜索引擎,具有zookeeper的高可用以及集群的可伸缩性的特点。 SolrCloud结构图 Collection:对应standby模式Solr Core Shard(分片): 对应Col...

ZeroneLove
2019/02/26
19
0
solrcloud分布式集群部署&zookeeper集群安装

Solrcloud集群搭建 使用solrcloud有几点需要注意的: 索引数据量比较大;配置是统一的(zookeeper会保持配置信息的一致性) 如果索引数据量不大,并且需求变动比较多,field要经常变动的可以...

Abel-ymg
2013/12/11
5.8K
0
SolrCloud5.0路由 Collection建与数据迁移

SolrCloud的设计是为了提供高可用、容错,在分布式环境中进行内容索引和查询请求。 SolrCloud 5.0,对自带的SolrCloud的启动脚本进行了改进,启动SolrCloud变的异常简单,执行 view sourcep...

zcl111
2016/07/14
55
0

没有更多内容

加载失败,请刷新页面

加载更多

OSChina 周一乱弹 —— 小姐姐,这tm不是犬耳娘吗!你认错了吧

Osc乱弹歌单(2020)请戳(这里) 【今日歌曲】 @薛定谔的兄弟 :分享洛神有语创建的歌单「我喜欢的音乐」: 《Drip Drip Drip》- 音乐治疗 手机党少年们想听歌,请使劲儿戳(这里) @-Eric- ...

小小编辑
24分钟前
30
0
HTML5 小游戏开发

HTML的基础 HTML称为超文本标记语言,是一种标识性的语言。它包括一系列标签.通过这些标签可以将网络上的文档格式统一,使分散的Internet资源连接为一个逻辑整体。HTML文本是由HTML命令组成...

冯六六
50分钟前
17
0
Filebeat快速入门

Filebeat快速入门 本笔记整理于https://www.elastic.co/guide/en/beats/filebeat/current/filebeat-installation.html,仅做个人学习总结使用。 Filebeat是轻量级日志采集工具,经常与ELK搭配...

趣学程序
57分钟前
26
0
基于 HTML5 Canvas 的拓扑组件 ToolTip 应用

前言 ToolTip 效果是网页制作中常见的使用特效。当用户将鼠标悬浮在某个控件上时,ToolTip 显示并向用户展示相应的提示信息;当鼠标离开时,ToolTip 隐藏。一般情况下,我们使用 ToolTip 只是...

xhload3d
今天
25
0
11个炫酷的Linux终端命令大全

今天给大家分享用了十年的Linux总结出来的11个炫酷的Linux终端命令大全,通过今天这篇文章我将向大家展示一系列的Linux命令、工具和技巧,希望能够帮助到大家。 1.命令行日常快捷键 如下的快...

老孟的Linux私房菜
昨天
30
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部