文档章节

sphinx索引系统搭建(一)

行走的螃蟹
 行走的螃蟹
发布于 2014/08/18 15:43
字数 426
阅读 299
收藏 0

上一个项目有用过迅搜的解决方案做全文索引和中文分词,这次好书淘在重构LBS模块时,考虑到更多的将是用户数据索引的问题,所以一个高效的可拓展的搜索引擎需要建立起来。sphinx是比较好的选择,而且国内结合sphinx开发的中文分词和全文索引系统coreseek还是不错的。螃蟹也喜欢尝鲜,看到sphinx原生支持php和python,那就没有理由抗拒了。

按照coreseek4.1的参考手册(http://www.coreseek.cn/docs/coreseek_4.1-sphinx_2.0.1-beta.html#sources),螃蟹在阿里云的Centos服务器上搭建好了,也是中间遇到的挫折很多,还好官方论坛很多有解决方案,最后结果是好的。

螃蟹按照手册导入mysql数据源的用户表,建立索引,结果发现搜索一直报错,不过在sphinx的英文网站又找到了解决办法,最后测试成功。

[root@AY1************* bin]# ./search caroltc
Sphinx 2.1.9-release (rel21-r4761)
Copyright (c) 2001-2014, Andrew Aksyonoff
Copyright (c) 2008-2014, Sphinx Technologies Inc (http://sphinxsearch.com)

using config file '/***********/etc/sphinx.conf'...
index 'test1': query 'caroltc ': returned 3 matches of 3 total in 0.000 sec

displaying matches:
1. document=7, weight=1611, group=1, ptimes=Thu Jan  1 08:33:34 1970
2. document=14, weight=1611, group=1, ptimes=Thu Jan  1 08:33:34 1970
3. document=16, weight=1611, group=1, ptimes=Thu Jan  1 08:33:34 1970

words:
1. 'caroltc': 3 documents, 3 hits

index 'test1stemmed': query 'caroltc ': returned 3 matches of 3 total in 0.000 s                                                                                        ec

displaying matches:
1. document=7, weight=1611, group=1, ptimes=Thu Jan  1 08:33:34 1970
2. document=14, weight=1611, group=1, ptimes=Thu Jan  1 08:33:34 1970
3. document=16, weight=1611, group=1, ptimes=Thu Jan  1 08:33:34 1970

words:
1. 'caroltc': 3 documents, 3 hits



© 著作权归作者所有

行走的螃蟹

行走的螃蟹

粉丝 33
博文 48
码字总数 23634
作品 0
杭州
程序员
私信 提问
深入折腾scrapy之一:环境搭建 beta0.3(2013-2-4更新)

发表于:http://www.ballooncat.com/scrapy-setup.html 最近在深入折腾scrapy,先放出环境搭建教程一枚,随后放出更多关于scrapy配置,扩展方面的教程.教程为beta版,部分细节在实际环境中可能会有...

我不叫大脸猫
2013/01/09
0
0
[coreseek/sphinx学习笔记2]--安装

[参考Coreseek 全文检索服务器 2.0 (Sphinx 0.9.8)参考手册,详情见http://www.coreseek.cn/docs/sphinxdoczhcn_0.9.pdf] 2.1 平台 目前的阶段,Sphinx 的 Windows 版可用于测试和调试,但不...

酒肉穿肠过
2013/02/21
0
0
sphinx与gearman结合应用

一.说明 本文涉及到sphinx分布式配置,XML数据源,mysql触发器,任务分发系统gearman以及sphinx属性更改。数据依赖之前写的sphinx应用(一),sphinx应用(二),具体请参见: http://www.ttlsa.c...

NorthBoy
2013/08/26
0
3
Sphinx站内搜索

一、Sphinx流程 Mysql数据 -》 sphinx -》 索引数据 二、sphinx概述 三、Sphinx使用地方 1、网站中的搜索(站内搜索) 2、系统后台中的搜索 四、为什么要使用Sphinx 当数据超过100W时,我们需...

Corwien
2016/03/01
150
0
sphinx增量索引方案

以sphinx.conf中默认的数据为例: 1.先在mysql中插入一个计数表和两个索引表 CREATE TABLE sph_counter( counter_id INTEGER PRIMARY KEY NOT NULL, maxdocid INTEGER NOT NULL ); //主索引使......

旋转木马-千里马
2016/01/06
58
0

没有更多内容

加载失败,请刷新页面

加载更多

MySql双主架构原理

在企业中,一般系统架构的瓶颈会出现在数据库这一部分,mysql主从架构在很大程度上解决了这部分瓶颈,但是在mysql主从同步的架构也存在很多问题;比如:1.关于数据写入部分(也就是主库)往往很难做...

xiaomin0322
32分钟前
1
0
分布式系统中一致性哈希

问题场景 近年来B2C、O2O等商业概念的提出和移动端的发展,使得分布式系统流行了起来。分布式系统相对于单系统,解决了流量大、系统高可用和高容错等问题。功能强大也意味着实现起来需要更多...

Java领航员
34分钟前
1
0
接口限流算法:漏桶算法和令牌桶算法

漏桶算法 漏桶可以看作是一个带有常量服务时间的单服务器队列,如果漏桶(包缓存)溢出,那么数据包会被丢弃。这一点和线程池原理是很相似的。 把请求比作是水,水来了都先放进桶里,并以限定...

铁骨铮铮
41分钟前
6
0
Android 生成二维码工具类

/** * 生成条形码和二维码的工具 */public class ZXingUtils { /** * 生成二维码 要转换的地址或字符串,可以是中文 * * @param url * @param width ...

lanyu96
46分钟前
2
0
谈谈lucene的DocValues特性之SortedNumericDocValuesField

前面已经介绍过NumericDocValuesField,这里想强调一下SortedNumericDocValuesField是针对同一篇文档中一键多值的情况进行排序的,换句话说不同文档的同一字段值可以乱序。核心的写入流程与谈...

FAT_mt
54分钟前
1
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部