文档章节

Sphinx笔记

阿锋zxf
 阿锋zxf
发布于 2016/07/05 22:16
字数 11234
阅读 80
收藏 2

添加中文分词:sphinx for chinese

Sphinx/结果分组

  • SPH_GROUPBY_DAY, 从时间戳中按YYYYMMDD格式抽取年、月、日;
  • SPH_GROUPBY_WEEK, 从时间戳中按YYYYNNN格式抽取年份和指定周数(自年初计起)的第一天;
  • SPH_GROUPBY_MONTH, 从时间戳中按YYYYMM格式抽取月份;
  • SPH_GROUPBY_YEAR, 从时间戳中按YYYY格式抽取年份;
  • SPH_GROUPBY_ATTR, 使用属性值自身进行分组.

有时将搜索结果分组(或者说“聚类”)并对每组中的结果计数是很有用的-例如画个漂亮的图来展示每个月有多少的blog日志,或者把Web搜索结果按站点分组,或者把找到的论坛帖子按其作者分组。

先分组,后排序:阿里巴巴  参考mysql  官方文档

Sphinx 排序模式 SetSortMode

  • SPH_SORT_RELEVANCE 模式, 按相关度降序排列(最好的匹配排在最前面)
  • SPH_SORT_ATTR_DESC 模式, 按属性降序排列 (属性值越大的越是排在前面)
  • SPH_SORT_ATTR_ASC 模式, 按属性升序排列(属性值越小的越是排在前面)
  • SPH_SORT_TIME_SEGMENTS 模式, 先按时间段(最近一小时/天/周/月)降序,再按相关度降序
  • SPH_SORT_EXTENDED 模式, 按一种类似SQL的方式将列组合起来,升序或降序排列。
  • SPH_SORT_EXPR 模式,按某个算术表达式排序。

 

多语言篇:

说明:多语言篇并没有那么复杂,就是把官网的ru.pak文件下载,上传到某个目录(自己定义去),然后在配置文件(sphinx.conf)设置好就可以了。主要修改2个设置,第一个是indexer的地方增加lemmatizer_base路径,第二个是在index增加morphology = stem_enru就可以了

至于提示:index 'ru': search error: failed to open ./ru.pak: No such file or directory.,这个老外也遇到,回答是,不要管它,直接使用API调用就正常。

顺便说一下,这还支持:

我们自己的内置Sphinx实现附带的形态处理器是:

使用libstemmer,Sphinx还支持超过15种其他语言的形态处理。

  • 英语,俄语和德语词形;

  • 英语,俄语,阿拉伯语和捷克语词干;

http://sphinxsearch.com/docs/current.html#conf-morphology

#
# Minimal Sphinx configuration for Bitrix
#
searchd
{
    listen			= 9312
    listen			= 9306:mysql41
    log			= /var/log/sphinxsearch/searchd.log
    query_log		= /var/log/sphinxsearch/query.log
    read_timeout		= 5
    max_children		= 30
    pid_file		= /var/run/sphinxsearch/searchd.pid
    max_matches		= 1000
    seamless_rotate		= 1
    preopen_indexes		= 1
    unlink_old		= 1
    workers			= threads # for RT to work
    binlog_path		= /var/lib/sphinxsearch/data/
    binlog_max_log_size 	= 512M
    binlog_flush		= 2
    rt_flush_period		= 3600
}

indexer
{
    lemmatizer_cache	= 128M
    lemmatizer_base		= /etc/sphinxsearch/dicts/
}

index bitrix
{
    #main settings
        type = rt
        path = /var/lib/sphinxsearch/data/bitrix
        docinfo = inline
    #choose appropriate type of morphology to use
        #morphology = lemmatize_ru_all, lemmatize_en_all, lemmatize_de_all, stem_enru
        morphology = stem_enru, soundex
    #these settings are used by bitrix:search.title component
        dict = keywords
        prefix_fields = title
        infix_fields=
        min_prefix_len = 2
        enable_star = 1
    #all fields must be defined exactly as followed
        rt_field = title
        rt_field = body
        rt_attr_uint = module_id
        rt_attr_string = module
        rt_attr_uint = item_id
        rt_attr_string = item
        rt_attr_uint = param1_id
        rt_attr_string = param1
        rt_attr_uint = param2_id
        rt_attr_string = param2
        rt_attr_timestamp = date_change
        rt_attr_timestamp = date_to
        rt_attr_timestamp = date_from
        rt_attr_uint = custom_rank
        rt_attr_multi = tags
        rt_attr_multi = right
        rt_attr_multi = site
        rt_attr_multi = param
    #depends on settings of your site
        # uncomment for single byte character set
        charset_type = sbcs
        # uncomment for UTF character set
        #charset_type = utf-8
}

 

 

 

---------------------------------------------------------------------------------

https://www.google.com/search?num=50&newwindow=1&safe=strict&source=hp&ei=pnAHW5OTIcqg8QW4zY5A&q=lemmatizer_base+%3D+%2Fru.pak&oq=lemmatizer_base+%3D+%2Fru.pak&gs_l=psy-ab.3...472.472.0.756.3.2.0.0.0.0.95.95.1.2.0....0...1c.1.64.psy-ab..1.1.69.6..35i39k1.69.r0tUjYn67pU

俄语配置笔记:

morphology morphology      = none

# 可設定的屬性有 'none', 'stem_en', 'stem_ru', 'stem_enru', 'soundex', and 'metaphone'.

 

 

 

/usr/local/sphinx/bin/searchd -c /usr/local/sphinx/etc/sphinx.conf

 

这篇俄语的说明文档说明了步骤:

https://training.bitrix24.com/support/training/course/?COURSE_ID=20&LESSON_ID=6630

这里也有说明,不过忽略他写的安装步骤(人家还是整体安装说明,顺便附带了俄语的配置)

директивы, которые могут отличаться на разных окружениях:
log
query_log
pid_file 
binlog_path
lemmatizer_base
path
charset_type - зависит от кодировки сайта

2. Скачать морфологические словари тут - 
http://sphinxsearch.com/downloads/dicts/ (ru.pak, en.pak, de.pak) и скопировать их в папку из директивы - lemmatizer_base
3. Перезапустить sphinx
4. В настройках модуля Поиска в закладке "Морфология" выбрать поиск Sphinx, указать название индекса (в примере - bitrix, секция в конфиге - index bitrix).

 

官网,俄语论坛是搜索一下

lemmatize_ru_all

lemmatize_ru

sphinx调用地址的绝对路径:(暂时这三句是照搬过来替换了)

lemmatizer_base = /usr/local/share/sphinx/dicts

lemmatizer_base = /ru.pak

morphology = lemmatize_ru_all

В общем, суть в заголовке. ОС - Win 8 (на линуксе пока не получается проверить), версия
php 5.3.17

index posts
{
        source = posts
        path = C:\Sphinx/data/posts
        docinfo = extern
        charset_type = utf-8
        charset_table = 0..9, A..Z->a..z, _, a..z, U+410..U+42F->U+430..U+44F, U+430..U+44F,
        U+401->U+0435, U+451->U+0435
        # Индекс с учетом морфологии
        morphology = lemmatize_ru_all, stem_en
          # Минимальная длина слова для индексации
        min_word_len = 1
        expand_keywords = 1
        # Из данных источника HTML-код нужно вырезать
                html_strip = 1
}
indexer
{
                mem_limit = 256M
        lemmatizer_base = C:/Sphinx/data/dict
                lemmatizer_cache = 256M
}
Сообщение консольки:
index `posts`: search error: failed to open ./ru.pak: Bad file descriptor

Пробовал играться с директориями, получал максимум, что он файл найти не может. Что я
делаю не так?

设置筛选字段篇:

---------------------------------------------------------------------------------

很多时候需要筛选某个分类下,某种属性,某个字段的范围的,这种如果没有设置,对于通用全文搜索来说是不准确的,可以使用sphinx的字段设置:

$sphinx->setFilter('catid', array($catid));    //标红色的部分,是设置的字段变量。蓝色的部分,需要在sphinx.conf设置,主数据源:source xx { #sql_attr_uint   =id字段 }

 

 

--------------------------【技巧篇】:----------------------------------------------------------

属性:全文匹配结果进行过滤、排序或分组时使用,

sql_attr_uint  这个专门设置整数类,比如筛选id之类的属性

sql_attr_timestamp 这个设置按时间分组或者筛选

sql_attr_multi 这个应用于多层级的属性:

 

 

## 当数据源数据太大的时候,一个sql语句查询下来往往很有可能锁表等操作。
    ## 那么我么就可以使用多次查询,那么这个多次查询就需要有个范围和步长,sql_query_range和sql_range_step就是做这个使用的。
    ## 获取最大和最小的id,然后根据步长来获取数据。比如下面的例子,如果有4500条数据,这个表建立索引的时候就会进行5次sql查询。 
    ## 而5次sql查询每次的间隔时间是使用sql_ranged_rhrottle来进行设置的。单位是毫秒。
    # sql_query_range       = SELECT MIN(id),MAX(id) FROM documents
    # sql_range_step        = 1000
    # sql_ranged_throttle   = 0
## 词形处理器
    ## 词形处理是什么意思呢?比如在英语中,dogs是dog的复数,所以dog是dogs的词干,这两个实际上是同一个词。
    ## 所以英语的词形处理器会讲dogs当做dog来进行处理。
    morphology      = none

    ## 词形处理有的时候会有问题,比如将gps处理成gp,这个设置可以允许根据词的长度来决定是否要使用词形处理器。
    # min_stemming_len  = 1

    ## 词形处理后是否还要检索原词?
    # index_exact_words = 1

    ## 停止词,停止词是不被索引的词。
    # stopwords     = /home/yejianfeng/instance/coreseek/var/data/stopwords.txt

    ## 自定义词形字典
    # wordforms     = /home/yejianfeng/instance/coreseek/var/data/wordforms.txt

--------------------------【安装篇】:----------------------------------------------------------

在安装的过程中我们会碰到依赖包的问题

Sphinx安装与运行测试(一)

(1)、下载Sphinx

从sphinx官网上找到sphinx的安装源码

最新地址:http://sphinxsearch.com/downloads/  在网盘保存有版本

解压:tar -zxvf /home/sphinx-2.1.3-release.tar.gz -C 【目录自己定】

 

(2)、编译安装

进入到sphinx的源码文件夹里,运行下列命令就可以安装sphinx了:

cd /usr/local/sphinx-2.1.3-release【目录自己定】

./configure --prefix=/usr/local/sphinx --with-mysql=/usr/local/mysql
make && make install【目录自己定】

Sphinx中重要的三个命令,(Sphinx安装的bin目录下) 

Indexer 创建索引命令。Searchd 启动进程命令。Search  命令行搜索命令。(完)

 

(3)、配置sphinx.conf

自己找备份,此次留空

 

(4)、命令注解

创建索引命令:indexer

-c     指定配置文件

--all  对所有索引重新编制索引。

--rotate 用于轮换索引,主要是再不停止服务的时候,增加索引。

--buildstops --buildfreqs  要一起使用,

例:indexer myindex --buildstops text.txt 1000 --buildfreqs

会在当前目录下生成,一个名字叫text.txt,最多包含1000个词的词表。

--merge 合并索引 (后面会详细讲)

/usr/local/sphinx/bin/indexer -c /usr/local/sphinx/etc/sphinx.conf --all

(5)、API调用,直接sphinxapi.php文件放程序根目录,require_once "sphinxapi.php";

 

--------------------------【使用篇】:----------------------------------------------------------

1、解决Sphinx 使用报错:index 'test1': search error: query too complex, not enough stack (thread_stack=-65032K

sql_query_info         = SELECT * FROM documents WHERE id=$id 

2、在安装好sphinx 后,启动 searchd 服务时总是提示如下错误: 

index 'test': search error: failed to open /var/data/test.sph: sphinx 错误解决 index 'test': search error: failed to open /var/data/test.sph:No such file or directory; NOT SERVING 

这个错误可能是没有建立好索引导致的,所以 indexer --all --rotate ,重新建一次索引

--------------------------【配置文件详细说明篇】----------------------------------------------------------

source 來源名稱1{  
# 資料來源設定  
}  
index 索引名稱1{  
source=來源名稱1  
# 索引設定  
}  
  
source 來源名稱2{  
# 資料來源設定  
}  
index 索引名稱2{  
source source = 來源名稱2  
# 索引設定  
}  
  
indexer{  
# indexer 配置選項  
}  
searchd{  
# searchd 配置選項  
}  



sphinx.conf 配置詳解
預設的 conf 位址: /usr/local/etc/sphinx.conf 
原始碼關於此工具
#  
# Sphinx configuration file sample  
#  
# WARNING! While this sample file mentions all available options,  
# it contains (very) short helper descriptions only. Please refer to  
# doc/sphinx.html for details.  
#  
  
###############################################################  
## data source definition  
###############################################################  
  
source s_tit  
{  
# 資料來源的類型。必要設定項,沒有預設值。  
# 已知類型 mysql , pgsql , xmlpipe , xmlpipe2。  
type type           = mysql  
  
# SQL 主機連接的 IP。必要設定項,沒有預設值。  
# 僅適用於SQL數據源(mysql,pgsql)。  
sql_host sql_host       = localhost  
  
# SQL 主機連接的 port 選擇性設定,預設 mysql(3306),及 pgsql(5432)。  
# 僅適用於SQL數據源(mysql,pgsql)。  
# 這個設定必須依附在 sql_host 下。  
sql_port sql_port       = 3306  # optional, default is 3306  
  
# 資料庫用戶名稱,必要設定項,沒有預設值。  
sql_user sql_user       = root  
  
# 資料庫用戶密碼,必要設定項,沒有預設值。  
sql_pass sql_pass       = 0000  
  
# 資料庫名稱,必要設定項,沒有預設值。  
sql_db sql_db         = sphinx_test  
  
# 資料庫 local 端連結介面,選擇性設定,預設為空。  
#sql_sock       = /tmp/mysql.sock   
  
# MySQL 傳輸壓縮,可將索引建立時的傳輸量,預設為 0(不壓縮)。  
#mysql_connect_flags = 32  
  
  
# 預先查詢。選擇性,可重複,預設是空。僅適用於SQL數據源(mysql,pgsql)。  
# 可用來做索引前的初始設定,如編碼設定、緩衝區大小、是否快取暫存  
sql_query_pre sql_query_pre  = SET NAMES utf8  
sql_query_pre sql_query_pre  = SET SESSION query_cache_type=OFF  
  
  
# 主要文件擷取查詢。必要設定項,沒有預設值。僅適用於SQL數據源(mysql,pgsql)。  
# 查詢指令允許使用 JOIN 及子查詢,對於資料表不能使用 AS,但資料欄位可以  
sql_query sql_query      = SELECT `BlogId`,`Title`,`InsertDate` FROM `blog_texts`  
  
  
# 設定過濾條目,被設定的欄位將不會列入索引的範圍,之後可以作為查詢時的過濾條件,0.9.8版支援下列類型。  
sql_attr_timestamp sql_attr_timestamp   = InsertDate  
#sql_attr_uint = group_id  
#sql_attr_bool = is_deleted # will be packed to 1 bit  
#sql_attr_str2ordinal = author_name  
#sql_attr_float = long_radians   
#sql_attr_multi = uint tag from ranged-query; \  
#   SELECT id, tag FROM tags WHERE id>=$start AND id<=$end; \  
#   SELECT MIN(id), MAX(id) FROM tags  
  
  
# 與 sql_query_pre 的功能相同,但用於索引結束後呼叫的指令    
#sql_query_post = DROP TABLE my_tmp_table  
  
  
#sql_query_info       =SELECT * FROM `blog_texts` WHERE `BlogId`=$id  
  
}  
  
#------------------------------------------------------------------------  
source s_txt  
{  
type type           = mysql  
sql_host sql_host       = localhost  
sql_user sql_user       = root  
sql_pass sql_pass       = 0000  
sql_db sql_db         = sphinx_test  
sql_port sql_port       = 3306  
sql_query_pre sql_query_pre  = SET NAMES utf8  
sql_query_pre sql_query_pre  = SET SESSION query_cache_type=OFF  
sql_query sql_query      = SELECT `BlogId`,`Text`,`InsertDate` FROM `blog_texts`  
  
sql_attr_timestamp sql_attr_timestamp   = InsertDate  
  
sql_ranged_throttle sql_ranged_throttle  = 0  
sql_query_info sql_query_info       =SELECT * FROM `blog_texts` WHERE `BlogId`=$id  
}  
  
#------------------------------------------------------------------------  
source s_comment  
{  
type type           = mysql  
sql_host sql_host       = localhost  
sql_user sql_user       = root  
sql_pass sql_pass       = 0000  
sql_db sql_db         = sphinx_test  
sql_port sql_port       = 3306  
sql_query_pre sql_query_pre  = SET NAMES utf8  
sql_query_pre sql_query_pre  = SET group_concat_max_len=1048576  
sql_query_pre sql_query_pre  = SET SESSION query_cache_type=OFF  
sql_query sql_query     = \  
SELECT \  
`blog_comments`.`BlogId`, \  
GROUP_CONCAT(`blog_comments`.`Text`)AS`CommentText`, \  
COUNT(`blog_comments`.`BlogId`)AS`CommentNum`, \  
`blog_texts`.`InsertDate` \  
FROM \  
`blog_texts` \  
INNER JOIN \  
`blog_comments` \  
ON `blog_texts`.`BlogId`=`blog_comments`.`BlogId` \  
GROUP BY `blog_comments`.`BlogId` \  
  
sql_attr_uint sql_attr_uint        = CommentNum  
sql_attr_timestamp sql_attr_timestamp   = InsertDate  
  
sql_ranged_throttle sql_ranged_throttle  = 0  
sql_query_info sql_query_info       =SELECT * FROM `blog_texts` WHERE `BlogId`=$id  
}  
  
  
  
  
  
###############################################################  
### index definition  
###############################################################  
  
index s_tit  
{  
# 索引類型。預設為空(索引為簡單本地索引)。設定值有空字串或 "distributed"  
#type           = distributed  
  
# 指定索引的來源,必須是上面的來源名稱  
source source          = s_tit  
  
  
# 索引記錄存放的目錄  
path path            = /var/data/s_tit  
  
  
# 文件屬性值存儲模式,預設值為 extern,可設定的屬性有 'none', 'extern' 及 'inline'.   
docinfo docinfo         = extern   
  
  
# 鎖定記憶體緩衝區段。預設為 0(不鎖定)  
mlock mlock           = 0  
  
  
# 適用的形態前置處理器名單。預設為空(不應用任何前處理器)。  
# 可設定的屬性有 'none', 'stem_en', 'stem_ru', 'stem_enru', 'soundex', and 'metaphone'.  
# 這段在中文情況下不能使用,否則會導致無法啟動 searchd 服務。  
morphology morphology      = none  
  
  
# 停用詞文件清單(以空白分隔),預設為空。  
# 在清單中的 word 將不會加到索引庫裡。  
#stopwords      = /usr/local/sphinx/data/stopwords.txt  
  
  
# 詞形字典,預設為空。可以設定 word 之間的關連性。  
# wordforms.txt   
#   walks > walk  
#   walked > walk  
#   walking > walk  
#  
#wordforms      = /usr/local/sphinx/data/wordforms.txt  
  
# 保留字例外文件,預設為空。  
# exceptions.txt  
#   MS Windows => ms windows  
#   Microsoft Windows => ms windows  
#   C++ => cplusplus  
#   c++ => cplusplus  
#   C plus plus => cplusplus  
#  
#exceptions     = /usr/local/sphinx/data/exceptions.txt  
  
# exceptions 與 wordforms 的區別  
#  *exceptions 是區分大小寫的, wordforms沒有;  
#  *exceptions 允許檢測序列標記, wordforms 只能處理單一的 word;  
#  *exceptions 可以使用 charset_table 中沒有的特殊符號,wordforms 完全遵從 charset_table 中的字符;  
#  *exceptions 在大字典上性能會下降,wordforms 則對百萬級的條目應對自如;    
  
  
  
# 最短的關鍵字長度  
min_word_len min_word_len    = 1   
  
  
# 編碼格式  
charset_type charset_type    = utf-8  
  
  
# 指定 UTF-8 的編碼表  
charset_table charset_table   = U+FF10..U+FF19->0..9,0..9,U+FF41..U+FF5A->a..z,\  
U+FF21..U+FF3A->a..z,A..Z->a..z,a..z,U+0149,U+017F,U+0138,U+00DF,\  
U+00FF,U+00C0..U+00D6->U+00E0..U+00F6,U+00E0..U+00F6,\  
U+00D8..U+00DE->U+00F8..U+00FE,U+00F8..U+00FE,U+0100->U+0101,\  
U+0101,U+0102->U+0103,U+0103,U+0104->U+0105,U+0105,U+0106->U+0107,\  
U+0107,U+0108->U+0109,U+0109,U+010A->U+010B,U+010B,U+010C->U+010D,\  
U+010D,U+010E->U+010F,U+010F,U+0110->U+0111,U+0111,U+0112->U+0113,\  
U+0113,U+0114->U+0115,U+0115,U+0116->U+0117,U+0117,U+0118->U+0119,\  
U+0119,U+011A->U+011B,U+011B,U+011C->U+011D,U+011D,U+011E->U+011F,\  
U+011F,U+0130->U+0131,U+0131,U+0132->U+0133,U+0133,U+0134->U+0135,\  
U+0135,U+0136->U+0137,U+0137,U+0139->U+013A,U+013A,U+013B->U+013C,\  
U+013C,U+013D->U+013E,U+013E,U+013F->U+0140,U+0140,U+0141->U+0142,\  
U+0142,U+0143->U+0144,U+0144,U+0145->U+0146,U+0146,U+0147->U+0148,\  
U+0148,U+014A->U+014B,U+014B,U+014C->U+014D,U+014D,U+014E->U+014F,\  
U+014F,U+0150->U+0151,U+0151,U+0152->U+0153,U+0153,U+0154->U+0155,\  
U+0155,U+0156->U+0157,U+0157,U+0158->U+0159,U+0159,U+015A->U+015B,\  
U+015B,U+015C->U+015D,U+015D,U+015E->U+015F,U+015F,U+0160->U+0161,\  
U+0161,U+0162->U+0163,U+0163,U+0164->U+0165,U+0165,U+0166->U+0167,\  
U+0167,U+0168->U+0169,U+0169,U+016A->U+016B,U+016B,U+016C->U+016D,\  
U+016D,U+016E->U+016F,U+016F,U+0170->U+0171,U+0171,U+0172->U+0173,\  
U+0173,U+0174->U+0175,U+0175,U+0176->U+0177,U+0177,U+0178->U+00FF,\  
U+00FF,U+0179->U+017A,U+017A,U+017B->U+017C,U+017C,U+017D->U+017E,\  
U+017E,U+0410..U+042F->U+0430..U+044F,U+0430..U+044F,U+05D0..U+05EA,\  
U+0531..U+0556->U+0561..U+0586,U+0561..U+0587,U+0621..U+063A,U+01B9,\  
U+01BF,U+0640..U+064A,U+0660..U+0669,U+066E,U+066F,U+0671..U+06D3,\  
U+06F0..U+06FF,U+0904..U+0939,U+0958..U+095F,U+0960..U+0963,\  
U+0966..U+096F,U+097B..U+097F,U+0985..U+09B9,U+09CE,U+09DC..U+09E3,\  
U+09E6..U+09EF,U+0A05..U+0A39,U+0A59..U+0A5E,U+0A66..U+0A6F,\  
U+0A85..U+0AB9,U+0AE0..U+0AE3,U+0AE6..U+0AEF,U+0B05..U+0B39,\  
U+0B5C..U+0B61,U+0B66..U+0B6F,U+0B71,U+0B85..U+0BB9,U+0BE6..U+0BF2,\  
U+0C05..U+0C39,U+0C66..U+0C6F,U+0C85..U+0CB9,U+0CDE..U+0CE3,\  
U+0CE6..U+0CEF,U+0D05..U+0D39,U+0D60,U+0D61,U+0D66..U+0D6F,\  
U+0D85..U+0DC6,U+1900..U+1938,U+1946..U+194F,U+A800..U+A805,\  
U+A807..U+A822,U+0386->U+03B1,U+03AC->U+03B1,U+0388->U+03B5,\  
U+03AD->U+03B5,U+0389->U+03B7,U+03AE->U+03B7,U+038A->U+03B9,\  
U+0390->U+03B9,U+03AA->U+03B9,U+03AF->U+03B9,U+03CA->U+03B9,\  
U+038C->U+03BF,U+03CC->U+03BF,U+038E->U+03C5,U+03AB->U+03C5,\  
U+03B0->U+03C5,U+03CB->U+03C5,U+03CD->U+03C5,U+038F->U+03C9,\  
U+03CE->U+03C9,U+03C2->U+03C3,U+0391..U+03A1->U+03B1..U+03C1,\   
U+03A3..U+03A9->U+03C3..U+03C9,U+03B1..U+03C1,U+03C3..U+03C9,\  
U+0E01..U+0E2E,U+0E30..U+0E3A,U+0E40..U+0E45,U+0E47,U+0E50..U+0E59,\  
U+A000..U+A48F,U+4E00..U+9FBF,U+3400..U+4DBF,U+20000..U+2A6DF,\  
U+F900..U+FAFF,U+2F800..U+2FA1F,U+2E80..U+2EFF,U+2F00..U+2FDF,\  
U+3100..U+312F,U+31A0..U+31BF,U+3040..U+309F,U+30A0..U+30FF,\  
U+31F0..U+31FF,U+AC00..U+D7AF,U+1100..U+11FF,U+3130..U+318F,\  
U+A000..U+A48F,U+A490..U+A4CF  
  
  
# 指明分詞法讀取詞典文件的位置,當啟用分詞法時,為必填項。  
# 在使用 LibMMSeg 作為分詞庫時,需要確保詞典文件uni.lib在指定的目錄下。  
# 再使用 LibMMSeg 分詞外掛時,這個設定值才有效,不然在建立索引時會出錯。  
#charset_dictpath = dict  
  
  
# 忽略的字符列表,預設為空。  
#ignore_chars   = U+AD  
  
  
# 索引的最小前綴長度,預設為0(不索引前綴)。  
#min_prefix_len = 3  
  
  
# 索引的最小中綴長度,預設為0(不索引中綴)。  
#min_infix_len  = 3  
  
  
# 做前綴索引的字段列表,預設為空(所有字段均為前綴索引模式)。  
#prefix_fields  = url, domain  
  
  
# 做中綴索引的字段列表,預設為空(所有字段均為中綴索引模式)。  
#infix_fields   = url, domain  
  
  
# 允許前綴/中綴索引上的星號語法(或稱萬用字符)預設為 0(不使用通配符),這是為了與0.9.7版本的兼容性。設定值有 0 和 1。  
enable_star enable_star     = 1  
  
  
#分詞,設定值有 0,1,如果要搜索中文,請指定為 1  
ngram_len ngram_len       = 1  
  
  
# 分詞字符,中文搜索必要設定。  
ngram_chars ngram_chars     = U+4E00..U+9FBF,U+3400..U+4DBF,U+20000..U+2A6DF,\  
U+F900..U+FAFF,U+2F800..U+2FA1F,U+2E80..U+2EFF,U+2F00..U+2FDF,\  
U+3100..U+312F,U+31A0..U+31BF,U+3040..U+309F,U+30A0..U+30FF,\  
U+31F0..U+31FF,U+AC00..U+D7AF,U+1100..U+11FF,U+3130..U+318F,\  
U+A000..U+A48F,U+A490..U+A4CF  
  
  
# 短語邊界字符列表,預設為空。   
#phrase_boundary = ., ?, !, U+2026  
  
  
# 是否從輸入全文數據中去除 HTML 標記。預設為 0。設定值有 0(禁用),1(啟用)。   
html_strip html_strip      = 0  
  
  
# 去除 HTML 標籤時要索引標籤語言的屬性列表,預設為空(不索引標記語言屬性)。  
# 指定被保留並索引的 HTML 標記語言屬性,即使其他 HTML 標記被刪除。  
html_index_attrs html_index_attrs      = img=alt,title; a=title;  
  
  
# HTML 標籤列表,不僅這些標籤本身會被刪除,標籤之間的文字內容也會被刪除。預設為空(不刪除任何元素的內容)。   
html_remove_elements html_remove_elements  = style, script  
}  
  
index dist_tit  
{  
# 索引類型。預設為空(索引為簡單本地索引)。設定值有空字串或 "distributed"  
type type            = distributed  
  
  
# 分佈式索引(distributed index)中的本地索引聲明,可以設定多個,預設為空。  
local local           = s_tit  
  
  
# 分佈式索引(distributed index)中的遠程代理和索引聲明,可以設定多個,預設為空。   
agent agent           = localhost:3313:remote1  
agent agent           = localhost:3314:remote2,remote3  
  
  
# 遠程代理的最大連接時間,單位為毫秒,預設為 1000(1 sec)。  
agent_connect_timeout agent_connect_timeout  = 1000  
  
  
# 遠程代理的最大查詢時間,單位為毫秒,預設為 3000(3 sec)。  
agent_query_timeout agent_query_timeout    = 3000  
  
  
# 預先開啟全部索引文件還是每次查詢時再開啟索引。預設為0(不預先開啟)。  
#preopen        = 1  
}  
  
  
#------------------------------------------------------------------------  
index s_txt  
{  
source source          = s_txt  
path path            = /var/data/s_txt  
docinfo docinfo         = extern  
mlock mlock           = 0  
morphology morphology      = none  
min_word_len min_word_len    = 1   
charset_type charset_type    = utf-8  
charset_table charset_table   = U+FF10..U+FF19->0..9,0..9,U+FF41..U+FF5A->a..z,\  
U+FF21..U+FF3A->a..z,A..Z->a..z,a..z,U+0149,U+017F,U+0138,U+00DF,\  
U+00FF,U+00C0..U+00D6->U+00E0..U+00F6,U+00E0..U+00F6,\  
U+00D8..U+00DE->U+00F8..U+00FE,U+00F8..U+00FE,U+0100->U+0101,\  
U+0101,U+0102->U+0103,U+0103,U+0104->U+0105,U+0105,U+0106->U+0107,\  
U+0107,U+0108->U+0109,U+0109,U+010A->U+010B,U+010B,U+010C->U+010D,\  
U+010D,U+010E->U+010F,U+010F,U+0110->U+0111,U+0111,U+0112->U+0113,\  
U+0113,U+0114->U+0115,U+0115,U+0116->U+0117,U+0117,U+0118->U+0119,\  
U+0119,U+011A->U+011B,U+011B,U+011C->U+011D,U+011D,U+011E->U+011F,\  
U+011F,U+0130->U+0131,U+0131,U+0132->U+0133,U+0133,U+0134->U+0135,\  
U+0135,U+0136->U+0137,U+0137,U+0139->U+013A,U+013A,U+013B->U+013C,\  
U+013C,U+013D->U+013E,U+013E,U+013F->U+0140,U+0140,U+0141->U+0142,\  
U+0142,U+0143->U+0144,U+0144,U+0145->U+0146,U+0146,U+0147->U+0148,\  
U+0148,U+014A->U+014B,U+014B,U+014C->U+014D,U+014D,U+014E->U+014F,\  
U+014F,U+0150->U+0151,U+0151,U+0152->U+0153,U+0153,U+0154->U+0155,\  
U+0155,U+0156->U+0157,U+0157,U+0158->U+0159,U+0159,U+015A->U+015B,\  
U+015B,U+015C->U+015D,U+015D,U+015E->U+015F,U+015F,U+0160->U+0161,\  
U+0161,U+0162->U+0163,U+0163,U+0164->U+0165,U+0165,U+0166->U+0167,\  
U+0167,U+0168->U+0169,U+0169,U+016A->U+016B,U+016B,U+016C->U+016D,\  
U+016D,U+016E->U+016F,U+016F,U+0170->U+0171,U+0171,U+0172->U+0173,\  
U+0173,U+0174->U+0175,U+0175,U+0176->U+0177,U+0177,U+0178->U+00FF,\  
U+00FF,U+0179->U+017A,U+017A,U+017B->U+017C,U+017C,U+017D->U+017E,\  
U+017E,U+0410..U+042F->U+0430..U+044F,U+0430..U+044F,U+05D0..U+05EA,\  
U+0531..U+0556->U+0561..U+0586,U+0561..U+0587,U+0621..U+063A,U+01B9,\  
U+01BF,U+0640..U+064A,U+0660..U+0669,U+066E,U+066F,U+0671..U+06D3,\  
U+06F0..U+06FF,U+0904..U+0939,U+0958..U+095F,U+0960..U+0963,\  
U+0966..U+096F,U+097B..U+097F,U+0985..U+09B9,U+09CE,U+09DC..U+09E3,\  
U+09E6..U+09EF,U+0A05..U+0A39,U+0A59..U+0A5E,U+0A66..U+0A6F,\  
U+0A85..U+0AB9,U+0AE0..U+0AE3,U+0AE6..U+0AEF,U+0B05..U+0B39,\  
U+0B5C..U+0B61,U+0B66..U+0B6F,U+0B71,U+0B85..U+0BB9,U+0BE6..U+0BF2,\  
U+0C05..U+0C39,U+0C66..U+0C6F,U+0C85..U+0CB9,U+0CDE..U+0CE3,\  
U+0CE6..U+0CEF,U+0D05..U+0D39,U+0D60,U+0D61,U+0D66..U+0D6F,\  
U+0D85..U+0DC6,U+1900..U+1938,U+1946..U+194F,U+A800..U+A805,\  
U+A807..U+A822,U+0386->U+03B1,U+03AC->U+03B1,U+0388->U+03B5,\  
U+03AD->U+03B5,U+0389->U+03B7,U+03AE->U+03B7,U+038A->U+03B9,\  
U+0390->U+03B9,U+03AA->U+03B9,U+03AF->U+03B9,U+03CA->U+03B9,\  
U+038C->U+03BF,U+03CC->U+03BF,U+038E->U+03C5,U+03AB->U+03C5,\  
U+03B0->U+03C5,U+03CB->U+03C5,U+03CD->U+03C5,U+038F->U+03C9,\  
U+03CE->U+03C9,U+03C2->U+03C3,U+0391..U+03A1->U+03B1..U+03C1,\   
U+03A3..U+03A9->U+03C3..U+03C9,U+03B1..U+03C1,U+03C3..U+03C9,\  
U+0E01..U+0E2E,U+0E30..U+0E3A,U+0E40..U+0E45,U+0E47,U+0E50..U+0E59,\  
U+A000..U+A48F,U+4E00..U+9FBF,U+3400..U+4DBF,U+20000..U+2A6DF,\  
U+F900..U+FAFF,U+2F800..U+2FA1F,U+2E80..U+2EFF,U+2F00..U+2FDF,\  
U+3100..U+312F,U+31A0..U+31BF,U+3040..U+309F,U+30A0..U+30FF,\  
U+31F0..U+31FF,U+AC00..U+D7AF,U+1100..U+11FF,U+3130..U+318F,\  
U+A000..U+A48F,U+A490..U+A4CF  
  
ngram_len ngram_len       = 1  
ngram_chars ngram_chars     = U+4E00..U+9FBF,U+3400..U+4DBF,U+20000..U+2A6DF,\  
U+F900..U+FAFF,U+2F800..U+2FA1F,U+2E80..U+2EFF,U+2F00..U+2FDF,\  
U+3100..U+312F,U+31A0..U+31BF,U+3040..U+309F,U+30A0..U+30FF,\  
U+31F0..U+31FF,U+AC00..U+D7AF,U+1100..U+11FF,U+3130..U+318F,\  
U+A000..U+A48F,U+A490..U+A4CF  
  
html_strip html_strip      = 0  
html_index_attrs html_index_attrs    = img=alt,title; a=title;  
html_remove_elements html_remove_elements  = style, script  
}  
index dist_txt  
{  
type type            = distributed  
local local           = s_txt  
agent agent           = localhost:3313:remote1  
agent agent           = localhost:3314:remote2,remote3  
agent_connect_timeout agent_connect_timeout  = 1000  
agent_query_timeout agent_query_timeout    = 3000  
}  
  
  
  
#------------------------------------------------------------------------  
index s_comment  
{  
source source          = s_comment  
path path            = /var/data/s_comment  
docinfo docinfo         = extern  
mlock mlock           = 0  
morphology morphology      = none  
min_word_len min_word_len    = 1  
charset_type charset_type    = utf-8  
charset_table charset_table   = U+FF10..U+FF19->0..9,0..9,U+FF41..U+FF5A->a..z,\  
U+FF21..U+FF3A->a..z,A..Z->a..z,a..z,U+0149,U+017F,U+0138,U+00DF,\  
U+00FF,U+00C0..U+00D6->U+00E0..U+00F6,U+00E0..U+00F6,\  
U+00D8..U+00DE->U+00F8..U+00FE,U+00F8..U+00FE,U+0100->U+0101,\  
U+0101,U+0102->U+0103,U+0103,U+0104->U+0105,U+0105,U+0106->U+0107,\  
U+0107,U+0108->U+0109,U+0109,U+010A->U+010B,U+010B,U+010C->U+010D,\  
U+010D,U+010E->U+010F,U+010F,U+0110->U+0111,U+0111,U+0112->U+0113,\  
U+0113,U+0114->U+0115,U+0115,U+0116->U+0117,U+0117,U+0118->U+0119,\  
U+0119,U+011A->U+011B,U+011B,U+011C->U+011D,U+011D,U+011E->U+011F,\  
U+011F,U+0130->U+0131,U+0131,U+0132->U+0133,U+0133,U+0134->U+0135,\  
U+0135,U+0136->U+0137,U+0137,U+0139->U+013A,U+013A,U+013B->U+013C,\  
U+013C,U+013D->U+013E,U+013E,U+013F->U+0140,U+0140,U+0141->U+0142,\  
U+0142,U+0143->U+0144,U+0144,U+0145->U+0146,U+0146,U+0147->U+0148,\  
U+0148,U+014A->U+014B,U+014B,U+014C->U+014D,U+014D,U+014E->U+014F,\  
U+014F,U+0150->U+0151,U+0151,U+0152->U+0153,U+0153,U+0154->U+0155,\  
U+0155,U+0156->U+0157,U+0157,U+0158->U+0159,U+0159,U+015A->U+015B,\  
U+015B,U+015C->U+015D,U+015D,U+015E->U+015F,U+015F,U+0160->U+0161,\  
U+0161,U+0162->U+0163,U+0163,U+0164->U+0165,U+0165,U+0166->U+0167,\  
U+0167,U+0168->U+0169,U+0169,U+016A->U+016B,U+016B,U+016C->U+016D,\  
U+016D,U+016E->U+016F,U+016F,U+0170->U+0171,U+0171,U+0172->U+0173,\  
U+0173,U+0174->U+0175,U+0175,U+0176->U+0177,U+0177,U+0178->U+00FF,\  
U+00FF,U+0179->U+017A,U+017A,U+017B->U+017C,U+017C,U+017D->U+017E,\  
U+017E,U+0410..U+042F->U+0430..U+044F,U+0430..U+044F,U+05D0..U+05EA,\  
U+0531..U+0556->U+0561..U+0586,U+0561..U+0587,U+0621..U+063A,U+01B9,\  
U+01BF,U+0640..U+064A,U+0660..U+0669,U+066E,U+066F,U+0671..U+06D3,\  
U+06F0..U+06FF,U+0904..U+0939,U+0958..U+095F,U+0960..U+0963,\  
U+0966..U+096F,U+097B..U+097F,U+0985..U+09B9,U+09CE,U+09DC..U+09E3,\  
U+09E6..U+09EF,U+0A05..U+0A39,U+0A59..U+0A5E,U+0A66..U+0A6F,\  
U+0A85..U+0AB9,U+0AE0..U+0AE3,U+0AE6..U+0AEF,U+0B05..U+0B39,\  
U+0B5C..U+0B61,U+0B66..U+0B6F,U+0B71,U+0B85..U+0BB9,U+0BE6..U+0BF2,\  
U+0C05..U+0C39,U+0C66..U+0C6F,U+0C85..U+0CB9,U+0CDE..U+0CE3,\  
U+0CE6..U+0CEF,U+0D05..U+0D39,U+0D60,U+0D61,U+0D66..U+0D6F,\  
U+0D85..U+0DC6,U+1900..U+1938,U+1946..U+194F,U+A800..U+A805,\  
U+A807..U+A822,U+0386->U+03B1,U+03AC->U+03B1,U+0388->U+03B5,\  
U+03AD->U+03B5,U+0389->U+03B7,U+03AE->U+03B7,U+038A->U+03B9,\  
U+0390->U+03B9,U+03AA->U+03B9,U+03AF->U+03B9,U+03CA->U+03B9,\  
U+038C->U+03BF,U+03CC->U+03BF,U+038E->U+03C5,U+03AB->U+03C5,\  
U+03B0->U+03C5,U+03CB->U+03C5,U+03CD->U+03C5,U+038F->U+03C9,\  
U+03CE->U+03C9,U+03C2->U+03C3,U+0391..U+03A1->U+03B1..U+03C1,\   
U+03A3..U+03A9->U+03C3..U+03C9,U+03B1..U+03C1,U+03C3..U+03C9,\  
U+0E01..U+0E2E,U+0E30..U+0E3A,U+0E40..U+0E45,U+0E47,U+0E50..U+0E59,\  
U+A000..U+A48F,U+4E00..U+9FBF,U+3400..U+4DBF,U+20000..U+2A6DF,\  
U+F900..U+FAFF,U+2F800..U+2FA1F,U+2E80..U+2EFF,U+2F00..U+2FDF,\  
U+3100..U+312F,U+31A0..U+31BF,U+3040..U+309F,U+30A0..U+30FF,\  
U+31F0..U+31FF,U+AC00..U+D7AF,U+1100..U+11FF,U+3130..U+318F,\  
U+A000..U+A48F,U+A490..U+A4CF  
  
ngram_len ngram_len       = 1  
ngram_chars ngram_chars     = U+4E00..U+9FBF,U+3400..U+4DBF,U+20000..U+2A6DF,\  
U+F900..U+FAFF,U+2F800..U+2FA1F,U+2E80..U+2EFF,U+2F00..U+2FDF,\  
U+3100..U+312F,U+31A0..U+31BF,U+3040..U+309F,U+30A0..U+30FF,\  
U+31F0..U+31FF,U+AC00..U+D7AF,U+1100..U+11FF,U+3130..U+318F,\  
U+A000..U+A48F,U+A490..U+A4CF  
  
html_strip html_strip      = 0  
html_index_attrs html_index_attrs    = img=alt,title; a=title;  
html_remove_elements html_remove_elements  = style, script  
}  
index dist_comment  
{  
type type            = distributed  
local local           = s_comment  
agent agent           = localhost:3313:remote1  
agent agent           = localhost:3314:remote2,remote3  
agent_connect_timeout agent_connect_timeout  = 1000  
agent_query_timeout agent_query_timeout    = 3000  
}  
  
  
  
###############################################################  
### indexer settings  
###############################################################  
  
indexer  
{  
# 索引過程中記憶體的使用限制,預設為 32M。  
mem_limit mem_limit       = 64M  
  
# 每秒最大 I/O 操作次數,用於限制 I/O 操作。預設為0(無限制)。  
#max_iops       = 40  
  
# 最大單次允許的 I/O 操作大小,以 bytes 為單位,用於I/O節流。預設為0(不限制)。  
#max_iosize     = 1048576  
}  
  
  
  
###############################################################  
### searchd settings  
###############################################################  
  
searchd  
{  
# 監聽來源 IP,預設為0.0.0.0(即允許所有 IP 連結)。  
#address        = 127.0.0.1  
  
  
# searchd 的 TCP port。預設為 3312。  
port port            = 3312  
  
  
# log 的紀錄文件位址,全部 searchd 運行時事件會被記錄在這個日誌文件中。   
log log             = /var/log/sphinx/searchd.log  
  
  
# 查詢日誌文件名,預設為空(不記錄查詢日誌)。  
# 全部搜索查詢會被記錄在此文件中。  
query_log query_log       = /var/log/sphinx/query.log  
  
  
# 最大的查詢請求時間,單位是秒。預設是5秒。  
# searchd 將強制關閉在此時間內未能成功發出查詢的客戶端連接。   
read_timeout read_timeout    = 5  
  
  
# 並行執行的搜索的數目。預設為0(無限制)。  
max_children max_children    = 30  
  
  
# searchd 進程 ID 文件名。必選項。  
pid_file pid_file        = /var/log/sphinx/searchd.pid  
  
  
# 守護進程在記憶體中為每個索引所保持並返回給客戶端的匹配數目的最大值。預設為1000  
max_matches max_matches     = 1000  
  
  
# 防止 searchd 輪換在需要預取大量數據的索引時停止響應。預設為1(啟用無縫(seamless)輪換)  
seamless_rotate seamless_rotate = 1  
  
  
# 是否在啟動時強制重新打開所有索引文件。預設為0(不重新打開)。  
preopen_indexes preopen_indexes = 0  
  
  
# 索引輪換成功之後,是否刪除以.old為擴展名的索引拷貝。預設為1(刪除這些索引拷貝)。  
unlink_old unlink_old      = 1  
}  
  
# --eof--  

 

##
数据源src1
source src1
{
    ## 说明数据源的类型。数据源的类型可以是:mysql,pgsql,mssql,xmlpipe,odbc,python
    ## 有人会奇怪,python是一种语言怎么可以成为数据源呢?
    ## python作为一种语言,可以操作任意其他的数据来源来获取数据,更多数据请看:(http://www.coreseek.cn/products-install/python/)
    type            = mysql

    ## 下面是sql数据库特有的端口,用户名,密码,数据库名等。
    sql_host        = localhost
    sql_user        = test
    sql_pass        =
    sql_db          = test
    sql_port        = 3306

    ## 如果是使用unix sock连接可以使用这个。
    # sql_sock      = /tmp/mysql.sock

    ## indexer和mysql之间的交互,需要考虑到效率和安全性。
    ## 比如考虑到效率,他们两者之间的交互需要使用压缩协议;考虑到安全,他们两者之间的传输需要使用ssl
    ## 那么这个参数就代表这个意思,0/32/2048/32768  无/使用压缩协议/握手后切换到ssl/Mysql 4.1版本身份认证。
    # mysql_connect_flags   = 32

    ## 当mysql_connect_flags设置为2048(ssl)的时候,下面几个就代表ssl连接所需要使用的几个参数。
    # mysql_ssl_cert        = /etc/ssl/client-cert.pem
    # mysql_ssl_key     = /etc/ssl/client-key.pem
    # mysql_ssl_ca      = /etc/ssl/cacert.pem

    ## mssql特有,是否使用windows登陆
    # mssql_winauth     = 1

    ## mssql特有,是使用unicode还是单字节数据。
    # mssql_unicode     = 1 # request Unicode data from server

    ## odbc的dsn串
    # odbc_dsn      = DBQ=C:\data;DefaultDir=C:\data;Driver={Microsoft Text Driver (*.txt; *.csv)};

    ## sql某一列的缓冲大小,一般是针对字符串来说的。
    ## 为什么要有这么一种缓冲呢?
    ## 有的字符串,虽然长度很长,但是实际上并没有使用那么长的字符,所以在Sphinx并不会收录所有的字符,而是给每个属性一个缓存作为长度限制。
    ## 默认情况下非字符类型的属性是1KB,字符类型的属性是1MB。
    ## 而如果想要配置这个buffer的话,就可以在这里进行配置了。
    # sql_column_buffers    = content=12M, comments=1M

    ## indexer的sql执行前需要执行的操作。
    # sql_query_pre     = SET NAMES utf8
    # sql_query_pre     = SET SESSION query_cache_type=OFF

    ## indexer的sql执行语句
    sql_query       = \
        SELECT id, group_id, UNIX_TIMESTAMP(date_added) AS date_added, title, content \
        FROM documents

    ## 有的时候有多个表,我们想要查询的字段在其他表中。这个时候就需要对sql_query进行join操作。
    ## 而这个join操作可能非常慢,导致建立索引的时候特别慢,那么这个时候,就可以考虑在sphinx端进行join操作了。
    ## sql_joined_field是增加一个字段,这个字段是从其他表查询中查询出来的。
    ## 这里封号后面的查询语句是有要求的,如果是query,则返回id和查询字段,如果是payload-query,则返回id,查询字段和权重。
    ## 并且这里的后一个查询需要按照id进行升序排列。
    # sql_joined_field  = tags from query; SELECT docid, CONCAT('tag',tagid) FROM tags ORDER BY docid ASC
    # sql_joined_field  = wtags from payload-query; SELECT docid, tag, tagweight FROM tags ORDER BY docid ASC

    ## 外部文件字段,意思就是一个表中,有一个字段存的是外部文件地址,但是实际的字段内容在文件中。比如这个字段叫做content_file_path。
    ## 当indexer建立索引的时候,查到这个字段,就读取这个文件地址,然后加载,并进行分词和索引建立等操作。
    # sql_file_field        = content_file_path

    ## 当数据源数据太大的时候,一个sql语句查询下来往往很有可能锁表等操作。
    ## 那么我么就可以使用多次查询,那么这个多次查询就需要有个范围和步长,sql_query_range和sql_range_step就是做这个使用的。
    ## 获取最大和最小的id,然后根据步长来获取数据。比如下面的例子,如果有4500条数据,这个表建立索引的时候就会进行5次sql查询。 
    ## 而5次sql查询每次的间隔时间是使用sql_ranged_rhrottle来进行设置的。单位是毫秒。
    # sql_query_range       = SELECT MIN(id),MAX(id) FROM documents
    # sql_range_step        = 1000
    # sql_ranged_throttle   = 0

    ## 下面都是些不同属性的数据了
    ## 先要了解属性的概念:属性是存在索引中的,它不进行全文索引,但是可以用于过滤和排序。

    ## uint无符号整型属性
    sql_attr_uint       = group_id

    ## bool属性
    # sql_attr_bool     = is_deleted

    ## 长整型属性
    # sql_attr_bigint       = my_bigint_id

    ## 时间戳属性,经常被用于做排序
    sql_attr_timestamp  = date_added

    ## 字符串排序属性。一般我们按照字符串排序的话,我们会将这个字符串存下来进入到索引中,然后在查询的时候比较索引中得字符大小进行排序。
    ## 但是这个时候索引就会很大,于是我们就想到了一个方法,我们在建立索引的时候,先将字符串值从数据库中取出,暂存,排序。
    ## 然后给排序后的数组分配一个序号,然后在建立索引的时候,就将这个序号存入到索引中去。这样在查询的时候也就能完成字符串排序的操作。
    ## 这,就是这个字段的意义。
    # sql_attr_str2ordinal  = author_name

    ## 浮点数属性,经常在查询地理经纬度的时候会用到。
    # sql_attr_float        = lat_radians
    # sql_attr_float        = long_radians

    ## 多值属性(MVA)
    ## 试想一下,有一个文章系统,每篇文章都有多个标签,这个文章就叫做多值属性。
    ## 我要对某个标签进行查询过滤,那么在建立查询的时候就应该把这个标签的值放入到索引中。
    ## 这个字段,sql_attr_multi就是用来做这个事情的。
    # sql_attr_multi        = uint tag from query; SELECT docid, tagid FROM tags
    # sql_attr_multi        = uint tag from ranged-query; \
    #   SELECT docid, tagid FROM tags WHERE id>=$start AND id<=$end; \
    #   SELECT MIN(docid), MAX(docid) FROM tags

    ## 字符串属性。
    # sql_attr_string       = stitle

    ## 文档词汇数记录属性。比如下面就是在索引建立的时候增加一个词汇数的字段
    # sql_attr_str2wordcount    = stitle

    ## 字符串字段,可全文搜索,可返回原始文本信息。
    # sql_field_string  = author

    ## 文档词汇数记录字段,可全文搜索,可返回原始信息
    # sql_field_str2wordcount   = title

    ## 取后查询,在sql_query执行后立即操作。
    ## 它和sql_query_post_index的区别就是执行时间不同
    ## sql_query_post是在sql_query执行后执行,而sql_query_post_index是在索引建立完成后才执行。
    ## 所以如果要记录最后索引执行时间,那么应该在sql_query_post_index中执行。
    # sql_query_post        =

    ## 参考sql_query_post的说明。
    # sql_query_post_index  = REPLACE INTO counters ( id, val ) \
    #   VALUES ( 'max_indexed_id', $maxid )

    ## 命令行获取信息查询。
    ## 什么意思呢?
    ## 我们进行索引一般只会返回主键id,而不会返回表中的所有字段。
    ## 但是在调试的时候,我们一般需要返回表中的字段,那这个时候,就需要使用sql_query_info。
    ## 同时这个字段只在控制台有效,在api中是无效的。
    sql_query_info      = SELECT * FROM documents WHERE id=$id

    ## 比如有两个索引,一个索引比较旧,一个索引比较新,那么旧索引中就会有数据是旧的。
    ## 当我要对两个索引进行搜索的时候,哪些数据要按照新的索引来进行查询呢。
    ## 这个时候就使用到了这个字段了。
    ## 这里的例子(http://www.coreseek.cn/docs/coreseek_4.1-sphinx_2.0.1-beta.html#conf-sql-query-killlist)给的非常清晰了。
    # sql_query_killlist    = SELECT id FROM documents WHERE edited>=@last_reindex

    ## 下面几个压缩解压的配置都是为了一个目的:让索引重建的时候不要影响数据库的性能表现。
    ## SQL数据源解压字段设置
    # unpack_zlib       = zlib_column
    ## MySQL数据源解压字段设置
    # unpack_mysqlcompress  = compressed_column
    # unpack_mysqlcompress  = compressed_column_2
    ## MySQL数据源解压缓冲区设置
    # unpack_mysqlcompress_maxsize  = 16M


    ## xmlpipe的数据源就是一个xml文档
    # type          = xmlpipe

    ## 读取数据源的命令
    # xmlpipe_command       = cat /home/yejianfeng/instance/coreseek/var/test.xml

    ## 字段
    # xmlpipe_field     = subject
    # xmlpipe_field     = content

    ## 属性
    # xmlpipe_attr_timestamp    = published
    # xmlpipe_attr_uint = author_id

    ## UTF-8修复设置
    ## 只适用xmlpipe2数据源,数据源中有可能有非utf-8的字符,这个时候解析就有可能出现问题
    ## 如果设置了这个字段,非utf-8序列就会全部被替换为空格。
    # xmlpipe_fixup_utf8    = 1
}

## sphinx的source是有继承这么一种属性的,意思就是除了父source之外,这个source还有这个特性
source src1throttled : src1
{
    sql_ranged_throttle = 100
}

## 索引test1
index test1
{
    ## 索引类型,包括有plain,distributed和rt。分别是普通索引/分布式索引/增量索引。默认是plain。
    # type          = plain

    ## 索引数据源
    source          = src1
    ## 索引文件存放路径
    path            = /home/yejianfeng/instance/coreseek/var/data/test1

    ## 文档信息的存储模式,包括有none,extern,inline。默认是extern。
    ## docinfo指的就是数据的所有属性(field)构成的一个集合。
    ## 首先文档id是存储在一个文件中的(spa)
    ## 当使用inline的时候,文档的属性和文件的id都是存放在spa中的,所以进行查询过滤的时候,不需要进行额外操作。
    ## 当使用extern的时候,文档的属性是存放在另外一个文件(spd)中的,但是当启动searchd的时候,会把这个文件加载到内存中。
    ## extern就意味着每次做查询过滤的时候,除了查找文档id之外,还需要去内存中根据属性进行过滤。
    ## 但是即使这样,extern由于文件大小小,效率也不低。所以不是有特殊要求,一般都是使用extern
    docinfo         = extern

    ## 缓冲内存锁定。
    ## searchd会讲spa和spi预读取到内存中。但是如果这部分内存数据长时间没有访问,则它会被交换到磁盘上。
    ## 设置了mlock就不会出现这个问题,这部分数据会一直存放在内存中的。
    mlock           = 0

    ## 词形处理器
    ## 词形处理是什么意思呢?比如在英语中,dogs是dog的复数,所以dog是dogs的词干,这两个实际上是同一个词。
    ## 所以英语的词形处理器会讲dogs当做dog来进行处理。
    morphology      = none

    ## 词形处理有的时候会有问题,比如将gps处理成gp,这个设置可以允许根据词的长度来决定是否要使用词形处理器。
    # min_stemming_len  = 1

    ## 词形处理后是否还要检索原词?
    # index_exact_words = 1

    ## 停止词,停止词是不被索引的词。
    # stopwords     = /home/yejianfeng/instance/coreseek/var/data/stopwords.txt

    ## 自定义词形字典
    # wordforms     = /home/yejianfeng/instance/coreseek/var/data/wordforms.txt

    ## 词汇特殊处理。
    ## 有的一些特殊词我们希望把它当成另外一个词来处理。比如,c++ => cplusplus来处理。
    # exceptions        = /home/yejianfeng/instance/coreseek/var/data/exceptions.txt

    ## 最小索引词长度,小于这个长度的词不会被索引。
    min_word_len        = 1

    ## 字符集编码类型,可以为sbcs,utf-8。对于Coreseek,还可以有zh_cn.utf-8,zh_ch.gbk,zh_ch.big5
    charset_type        = sbcs

    ## 字符表和大小写转换规则。对于Coreseek,这个字段无效。
    # 'sbcs' default value is
    # charset_table     = 0..9, A..Z->a..z, _, a..z, U+A8->U+B8, U+B8, U+C0..U+DF->U+E0..U+FF, U+E0..U+FF
    #
    # 'utf-8' default value is
    # charset_table     = 0..9, A..Z->a..z, _, a..z, U+410..U+42F->U+430..U+44F, U+430..U+44F

    ## 忽略字符表。在忽略字符表中的前后词会被连起来当做一个单独关键词处理。
    # ignore_chars      = U+00AD

    ## 是否启用通配符,默认为0,不启用
    # enable_star       = 1

    ## min_prefix_len,min_infix_len,prefix_fields,infix_fields都是在enable_star开启的时候才有效果。
    ## 最小前缀索引长度
    ## 为什么要有这个配置项呢?
    ## 首先这个是当启用通配符配置启用的前提下说的,前缀索引使得一个关键词产生了多个索引项,导致索引文件体积和搜索时间增加巨大。
    ## 那么我们就有必要限制下前缀索引的前缀长度,比如example,当前缀索引长度设置为5的时候,它只会分解为exampl,example了。
    # min_prefix_len        = 0
    ## 最小索引中缀长度。理解同上。
    # min_infix_len     = 0

    ## 前缀索引和中缀索引字段列表。并不是所有的字段都需要进行前缀和中缀索引。
    # prefix_fields     = filename
    # infix_fields      = url, domain

    ## 词汇展开
    ## 是否尽可能展开关键字的精确格式或者型号形式
    # expand_keywords       = 1

    ## N-Gram索引的分词技术
    ## N-Gram是指不按照词典,而是按照字长来分词,这个主要是针对非英文体系的一些语言来做的(中文、韩文、日文)
    ## 对coreseek来说,这两个配置项可以忽略。
    # ngram_len     = 1
    # ngram_chars       = U+3000..U+2FA1F

    ## 词组边界符列表和步长
    ## 哪些字符被看做分隔不同词组的边界。
    # phrase_boundary       = ., ?, !, U+2026 # horizontal ellipsis
    # phrase_boundary_step  = 100

    ## 混合字符列表
    # blend_chars       = +, &, U+23
    # blend_mode        = trim_tail, skip_pure

    ## html标记清理,是否从输出全文数据中去除HTML标记。
    html_strip      = 0

    ## HTML标记属性索引设置。
    # html_index_attrs  = img=alt,title; a=title;

    ## 需要清理的html元素
    # html_remove_elements  = style, script

    ## searchd是预先打开全部索引还是每次查询再打开索引。
    # preopen           = 1

    ## 字典文件是保持在磁盘上还是将他预先缓冲在内存中。
    # ondisk_dict       = 1

    ## 由于在索引建立的时候,需要建立临时文件和和副本,还有旧的索引
    ## 这个时候磁盘使用量会暴增,于是有个方法是临时文件重复利用
    ## 这个配置会极大减少建立索引时候的磁盘压力,代价是索引建立速度变慢。
    # inplace_enable        = 1
    # inplace_hit_gap       = 0 # preallocated hitlist gap size
    # inplace_docinfo_gap   = 0 # preallocated docinfo gap size
    # inplace_reloc_factor  = 0.1 # relocation buffer size within arena
    # inplace_write_factor  = 0.1 # write buffer size within arena

    ## 在经过过短的位置后增加位置值
    # overshort_step        = 1

    ## 在经过 停用词 处后增加位置值
    # stopword_step     = 1

    ## 位置忽略词汇列表
    # hitless_words     = all
    # hitless_words     = hitless.txt

    ## 是否检测并索引句子和段落边界
    # index_sp          = 1

    ## 字段内需要索引的HTML/XML区域的标签列表
    # index_zones       = title, h*, th
}

index test1stemmed : test1
{
    path            = /home/yejianfeng/instance/coreseek/var/data/test1stemmed
    morphology      = stem_en
}

index dist1
{
    type            = distributed

    local           = test1
    local           = test1stemmed

    ## 分布式索引(distributed index)中的远程代理和索引声明
    agent           = localhost:9313:remote1
    agent           = localhost:9314:remote2,remote3
    # agent         = /var/run/searchd.sock:remote4

    ## 分布式索引( distributed index)中声明远程黑洞代理
    # agent_blackhole       = testbox:9312:testindex1,testindex2

    ## 远程代理的连接超时时间
    agent_connect_timeout   = 1000

    ## 远程查询超时时间
    agent_query_timeout = 3000
}

index rt
{
    type            = rt

    path            = /home/yejianfeng/instance/coreseek/var/data/rt

    ## RT索引内存限制
    # rt_mem_limit      = 512M

    ## 全文字段定义
    rt_field        = title
    rt_field        = content

    ## 无符号整数属性定义
    rt_attr_uint        = gid

    ## 各种属性定义
    # rt_attr_bigint        = guid
    # rt_attr_float     = gpa
    # rt_attr_timestamp = ts_added
    # rt_attr_string        = author
}

indexer
{
    ## 建立索引的时候,索引内存限制
    mem_limit       = 32M

    ## 每秒最大I/O操作次数,用于限制I/O操作
    # max_iops      = 40

    ## 最大允许的I/O操作大小,以字节为单位,用于I/O节流
    # max_iosize        = 1048576

    ## 对于XMLLpipe2数据源允许的最大的字段大小,以字节为单位
    # max_xmlpipe2_field    = 4M

    ## 写缓冲区的大小,单位是字节
    # write_buffer      = 1M

    ## 文件字段可用的最大缓冲区大小,字节为单位
    # max_file_field_buffer = 32M
}

## 搜索服务配置
searchd
{
    # listen            = 127.0.0.1
    # listen            = 192.168.0.1:9312
    # listen            = 9312
    # listen            = /var/run/searchd.sock

    ## 监听端口
    listen          = 9312
    listen          = 9306:mysql41

    ## 监听日志
    log         = /home/yejianfeng/instance/coreseek/var/log/searchd.log

    ## 查询日志
    query_log       = /home/yejianfeng/instance/coreseek/var/log/query.log

    ## 客户端读超时时间 
    read_timeout        = 5

    ## 客户端持久连接超时时间,即客户端读一次以后,持久连接,然后再读一次。中间这个持久连接的时间。
    client_timeout      = 300

    ## 并行执行搜索的数目
    max_children        = 30

    ## 进程id文件
    pid_file        = /home/yejianfeng/instance/coreseek/var/log/searchd.pid

    ## 守护进程在内存中为每个索引所保持并返回给客户端的匹配数目的最大值
    max_matches     = 1000

    ## 无缝轮转。防止 searchd 轮换在需要预取大量数据的索引时停止响应
    ## 当进行索引轮换的时候,可能需要消耗大量的时间在轮换索引上。
    ## 但是启动了无缝轮转,就以消耗内存为代价减少轮转的时间
    seamless_rotate     = 1

    ## 索引预开启,是否强制重新打开所有索引文件
    preopen_indexes     = 1

    ## 索引轮换成功之后,是否删除以.old为扩展名的索引拷贝
    unlink_old      = 1

    ## 属性刷新周期
    ## 就是使用UpdateAttributes()更新的文档属性每隔多少时间写回到磁盘中。
    # attr_flush_period = 900

    ## 索引字典存储方式
    # ondisk_dict_default   = 1

    ## 用于多值属性MVA更新的存储空间的内存共享池大小
    mva_updates_pool    = 1M

    ## 网络通讯时允许的最大的包的大小
    max_packet_size     = 8M

    ## 崩溃日志文件
    # crash_log_path        = /home/yejianfeng/instance/coreseek/var/log/crash

    ## 每次查询允许设置的过滤器的最大个数
    max_filters     = 256

    ## 单个过滤器允许的值的最大个数
    max_filter_values   = 4096

    ## TCP监听待处理队列长度
    # listen_backlog        = 5

    ## 每个关键字的读缓冲区的大小
    # read_buffer       = 256K

    ## 无匹配时读操作的大小
    # read_unhinted     = 32K

    ## 每次批量查询的查询数限制
    max_batch_queries   = 32

    ## 每个查询的公共子树文档缓存大小
    # subtree_docs_cache    = 4M

    ## 每个查询的公共子树命中缓存大小
    # subtree_hits_cache    = 8M

    ## 多处理模式(MPM)。 可选项;可用值为none、fork、prefork,以及threads。 默认在Unix类系统为form,Windows系统为threads。
    workers         = threads # for RT to work

    ## 并发查询线程数
    # dist_threads      = 4

    ## 二进制日志路径
    # binlog_path       = # disable logging
    # binlog_path       = /home/yejianfeng/instance/coreseek/var/data # binlog.001 etc will be created there

    ## 二进制日志刷新
    # binlog_flush      = 2

    ## 二进制日志大小限制
    # binlog_max_log_size   = 256M

    ## 线程堆栈
    # thread_stack          = 128K

    ## 关键字展开限制
    # expansion_limit       = 1000

    ## RT索引刷新周期 
    # rt_flush_period       = 900

    ## 查询日志格式
    ## 可选项,可用值为plain、sphinxql,默认为plain。 
    # query_log_format      = sphinxql

    ## MySQL版本设置
    # mysql_version_string  = 5.0.37

    ## 插件目录
    # plugin_dir            = /usr/local/sphinx/lib

    ## 服务端默认字符集
    # collation_server      = utf8_general_ci
    ## 服务端libc字符集
    # collation_libc_locale = ru_RU.UTF-8

    ## 线程服务看守
    # watchdog              = 1
    ## 兼容模式
    # compat_sphinxql_magics    = 1
}

 

© 著作权归作者所有

阿锋zxf
粉丝 9
博文 221
码字总数 221639
作品 0
深圳
程序员
私信 提问
小蚂蚁学习sphinx(1)--理论篇

网上有视频在讲php+mysql+sphinx,以前只是听说过,心想今天终于能够学习一下涨涨见识了,一个小时的理论篇讲完,并没有预想中那种汲取大量知识的满足感,一来讲的理论多一些,二来都是在lin...

嗜学如命的小蚂蚁
2015/09/21
70
0
用Git+Sphinx记笔记?

接前面 TeX、LaTeX、TeXLive 小结,练习使用Sphinx写点东西: 效果 图1: 图2: git Google code 提供Git http://code.google.com/p/debao-qt-blogs/ 只是不清楚什么原因,无论 push 还是 pu...

晨曦之光
2012/05/08
204
0
[coreseek/sphinx学习笔记2]--安装

[参考Coreseek 全文检索服务器 2.0 (Sphinx 0.9.8)参考手册,详情见http://www.coreseek.cn/docs/sphinxdoczhcn_0.9.pdf] 2.1 平台 目前的阶段,Sphinx 的 Windows 版可用于测试和调试,但不...

酒肉穿肠过
2013/02/21
598
0
[coreseek/sphinx学习笔记1]--简介

[参考Coreseek 全文检索服务器 2.0 (Sphinx 0.9.8)参考手册,详情见http://www.coreseek.cn/docs/sphinx_doc_zhcn_0.9.pdf] 1.1 什么是Sphinx Sphinx 是 SQL Phrase Index 的缩写,但不幸的和......

酒肉穿肠过
2013/02/21
631
0
[coreseek/sphinx学习笔记3]--建立索引

[参考Coreseek 全文检索服务器 2.0 (Sphinx 0.9.8)参考手册,详情见http://www.coreseek.cn/docs/sphinxdoczhcn_0.9.pdf] 3.1 数据源 索引数据是一个结构化的文档的集合,其中每个文档是字段...

酒肉穿肠过
2013/02/21
625
0

没有更多内容

加载失败,请刷新页面

加载更多

爬虫可以采集哪些数据?爬虫借用什么代理可以提高效率

学习爬虫的门槛非常低,特别是通过Python学习爬虫,即使是网上也能找到许多学习爬虫的方法,而且爬虫在数据采集方面效果比较好,比如可以采集几万、上百万网页数据进行分析,带来极有价值的数...

xiaotaomi
29分钟前
4
0
redis自建笔记

自建redis笔记 最近在linux安装了一下redis,特做一些笔记! 本文先单节点启动redis,然后再进行持久化配置,在次基础上,再分享搭建主从模式的配置以及Sentinel 哨兵模式及集群的搭建 单节点...

北极之北
31分钟前
4
0
没想到Spring Boot居然这么耗内存,有点惊讶

Spring Boot总体来说,搭建还是比较容易的,特别是Spring Cloud全家桶,简称亲民微服务,但在发展趋势中,容器化技术已经成熟,面对巨耗内存的Spring Boot,小公司表示用不起。如今,很多刚诞...

程序员修BUG
34分钟前
4
0
Spring Security 实战干货:Spring Boot 中的 Spring Security 自动配置初探

1. 前言 我们在前几篇对 Spring Security 的用户信息管理机制,密码机制进行了探讨。我们发现 Spring Security Starter相关的 Servlet 自动配置都在spring-boot-autoconfigure-2.1.9.RELEASE...

码农小胖哥
36分钟前
4
0
Docker 容器时区时间不一致 问题解决

解决方案: 1,最傻瓜也最方便的处理方式,运行新的容器前设置本机时区和时间文件与容器的映射 docker run -v /etc/timezone:/etc/timezone -v /etc/localtime:/etc/localtime ...1 -v /etc/...

突突突酱
38分钟前
5
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部