文档章节

sphinx索引系统搭建(一)

行走的螃蟹
 行走的螃蟹
发布于 2014/08/18 15:43
字数 426
阅读 350
收藏 0

行业解决方案、产品招募中!想赚钱就来传!>>>

上一个项目有用过迅搜的解决方案做全文索引和中文分词,这次好书淘在重构LBS模块时,考虑到更多的将是用户数据索引的问题,所以一个高效的可拓展的搜索引擎需要建立起来。sphinx是比较好的选择,而且国内结合sphinx开发的中文分词和全文索引系统coreseek还是不错的。螃蟹也喜欢尝鲜,看到sphinx原生支持php和python,那就没有理由抗拒了。

按照coreseek4.1的参考手册(http://www.coreseek.cn/docs/coreseek_4.1-sphinx_2.0.1-beta.html#sources),螃蟹在阿里云的Centos服务器上搭建好了,也是中间遇到的挫折很多,还好官方论坛很多有解决方案,最后结果是好的。

螃蟹按照手册导入mysql数据源的用户表,建立索引,结果发现搜索一直报错,不过在sphinx的英文网站又找到了解决办法,最后测试成功。

[root@AY1************* bin]# ./search caroltc
Sphinx 2.1.9-release (rel21-r4761)
Copyright (c) 2001-2014, Andrew Aksyonoff
Copyright (c) 2008-2014, Sphinx Technologies Inc (http://sphinxsearch.com)

using config file '/***********/etc/sphinx.conf'...
index 'test1': query 'caroltc ': returned 3 matches of 3 total in 0.000 sec

displaying matches:
1. document=7, weight=1611, group=1, ptimes=Thu Jan  1 08:33:34 1970
2. document=14, weight=1611, group=1, ptimes=Thu Jan  1 08:33:34 1970
3. document=16, weight=1611, group=1, ptimes=Thu Jan  1 08:33:34 1970

words:
1. 'caroltc': 3 documents, 3 hits

index 'test1stemmed': query 'caroltc ': returned 3 matches of 3 total in 0.000 s                                                                                        ec

displaying matches:
1. document=7, weight=1611, group=1, ptimes=Thu Jan  1 08:33:34 1970
2. document=14, weight=1611, group=1, ptimes=Thu Jan  1 08:33:34 1970
3. document=16, weight=1611, group=1, ptimes=Thu Jan  1 08:33:34 1970

words:
1. 'caroltc': 3 documents, 3 hits



行走的螃蟹

行走的螃蟹

粉丝 32
博文 48
码字总数 23634
作品 0
杭州
程序员
私信 提问
加载中
请先登录后再评论。
Flappy Bird(安卓版)逆向分析(一)

更改每过一关的增长分数 反编译的步骤就不介绍了,我们直接来看反编译得到的文件夹 方法1:在smali目录下,我们看到org/andengine/,可以知晓游戏是由andengine引擎开发的。打开/res/raw/at...

enimey
2014/03/04
5.8K
18
Nutch学习笔记4-Nutch 1.7 的 索引篇 ElasticSearch

上一篇讲解了爬取和分析的流程,很重要的收获就是: 解析过程中,会根据页面的ContentType获得一系列的注册解析器, 依次调用每个解析器,当其中一个解析成功后就返回,否则继续执行下一个解...

强子哥哥
2014/06/26
712
0
程序猿媛一:Android滑动翻页+区域点击事件

滑动翻页+区域点击事件 ViewPager+GrideView 声明:博文为原创,文章内容为,效果展示,思路阐述,及代码片段。文尾附注源码获取途径。 转载请保留原文出处“http://my.oschina.net/gluoyer...

花佟林雨月
2013/11/09
4.1K
1
DNS 管理系统--NamedManager

NamedManager 是一个基于 Web 的 DNS 管理系统,可用来添加、调整和删除 DNS 的 zones/records 数据,支持 Bind 作为后端的 DNS 服务,支持 IPv4 和 IPv6。...

匿名
2013/01/23
8.5K
0
C++模板库--C++ B-tree

这是一个google开源的C++模板库,实现了基于B-tree数据结构的有序内存容器。类似于STL的map、set、multimap和multiset模板,C++ B-tree也提供了btreemap、btreeset、btreemultimap和btreemu...

匿名
2013/02/05
3.2K
1

没有更多内容

加载失败,请刷新页面

加载更多

【c++灵魂科普】(1) 第一部分第一章-初识c++语言

今天带来一篇灵魂科普~ 主要是认识c++语言~话不多说 走起! 【全是干货!】 第一节 c++语言简介 信息学奥林匹克竞赛是一项益智性的竞赛活动,核心是考查选手的智力和使用计算机解题的能力,选...

osc_facwbzof
25分钟前
13
0
谈谈AMD CPU购机心得 与 写代码的感受

序 之前用的是华硕飞行保垒。具体是几代忘记了。。I7 4代的标压CUP。 8G内存 换成了联想yoga 14s。 换电脑的原因 网卡问题,老旧的网卡争网络实在争不过别人。每次看别人网络很好,我却连不上...

osc_0m0d4mbq
26分钟前
0
0
springboot 定时任务

一、在 DemoApplycation.java 写入如下代码 package com.taven.demo;import org.springframework.boot.SpringApplication;import org.springframework.boot.autoconfigure.SpringBootA......

tavenpy
27分钟前
14
0
2020年8月中国编程语言排行榜

编程语言比例(市场份额) 工资 排名 编程语言 平均工资 中位数 最低()95% 最高(95%) 人数 百分比 1 julia 22539 22500 9000 37500 17 0.00% 2 rust 20987 18500 5371 45000 548 0.11% 3 scal...

osc_kvcz9ju6
27分钟前
12
0
北风在这里给大家拜年了!!!祝大家2020鼠年大吉!忠心祝愿❤在新的一年里:工作的朋友工作顺利,还在读书的童鞋硕果累累,学技术的伙伴技术更上一层楼!同时祝大家2020百毒不侵!😄最后:武汉...

本文分享自微信公众号 - 北风IT之路(beifengtz)。 如有侵权,请联系 support@oschina.cn 删除。 本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。...

beifengtz
01/24
0
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部