文档章节

Whoosh 原理与实战1--Python 搜索框架 Whoosh 简介

从前
 从前
发布于 2012/11/12 14:32
字数 281
阅读 2955
收藏 2

       Whoosh 是一个纯 Python 编写的搜索框架,类似于Lucene。比较简单,可以快速构建站内搜索。也可以在此基础上构建搜索引擎,但需要自己扩展 爬虫Spider 和 中文分词组件。

Whoosh详细可以查看 http://www.oschina.net/p/whoosh

      最近构思了一个个人网站,准备采用 Python 开发,主要看重 Python 快速构建能力(当然,我不太会 Python,这也算一个 Python的学习作品,开发不一定快哈)。网站初步包括新闻、博客、社区,这三个版块需要站内搜索;同时有一个资讯版块,需要构建一个主题搜索引擎。这里都采用 Whoosh 作为基础,然后自己实现 Spider、中文分词完成。

下面将逐步介绍:

1. Whoosh 原理与实战

2. Python 中文分词设计与开发

3. Spider 设计与开发

由于需要边学习边写作,这只能算作我的 Python学习笔记。可能一些内容不太准确、合理,希望大家指正。

© 著作权归作者所有

共有 人打赏支持
从前

从前

粉丝 36
博文 75
码字总数 29813
作品 1
成都
程序员
私信 提问
加载中

评论(2)

J
Janvn
作者怎么没继续写了哈?
MrMign
MrMign
顶,继续写啊。。
Django实现全文检索(支持中文)

PS: 我的检索是在文章模块下 forum/article 第一步:先安装需要的包: 第二步: 配置需要的文件 settings.py 添加haystack应用模块 在settings.py 末尾添加 第三步: 配置url路径 在 forum/foru...

___大鱼___
05/12
0
0
词语纠错原理简介(corrector, do you mean?)

当在google百度输入错误的时候,百度google等都能给出一个最相近的纠错的提示。这个功能非常好用,也觉得特别有意思,所以在设计一个搜索小站的时候,想把这个功能加上。 在google上搜"spel...

余争
2013/09/14
0
0
whoosh学习(3)

使用whoosh之前,你需要一个索引对象 第一次创建索引时,你需要定义索引schema(结构),schema包括所有的的索引字段。 索引字段记录了索引的信息,比如标题,内容。 索引字段可以用来搜索或...

cs_sharp
2016/01/15
396
0
Python whoosh 全文检索

使用whoosh 针对自己的博客完成全文搜索功能 安装whoosh 和jieba(用于中文分词处理) 在这里搜索需要的安装包,复制安装命令即可 https://anaconda.org/ 先将博客数据保存为 json格式,注意需...

阿豪boy
07/30
0
0
whoosh学习(1)

背景 当前项目需要用到全文搜索 redis不方便实现 mysql效率太低 搜索引擎选择 pylucene whoosh(似乎更受欢迎,文档最全) 为什么选择 纯python实现,省了编译二进制包的繁琐过程。 python代...

cs_sharp
2016/01/15
479
0

没有更多内容

加载失败,请刷新页面

加载更多

什么是自然语言处理技术

自然语言处理(NLP)是计算机科学,人工智能,语言学关注计算机和人类(自然)语言之间的相互作用的领域。自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计...

本宫没空2
29分钟前
2
0
移动端关闭虚拟键盘

那么document.activeElement.blur()为什么可以阻止虚拟键盘弹出呢?原因是:当你点击input的时候,document.activeElement获得了DOM中被聚焦的元素,也就是你点击的input,而调用.blur()方法...

niuhongxia
29分钟前
5
0
Ubuntu18.04安装RabbitMQ(正确安装)

1、安装erlang 由于rabbitMq需要erlang语言的支持,在安装rabbitMq之前需要安装erlang sudo apt-get install erlang-nox 2、安装Rabbitmq 更新源 sudo apt-get update 安装 sudo apt-get ins...

hansonwong
39分钟前
2
0
如何在以太坊开发发行自己的ERC-20数字货币

今天我将向你展示如何在以太坊区块链上开发你自己的加密货币并将其出售!我将向你展示如何使用以太坊智能合约逐步创建自己的ERC-20代币和众筹销售,如何测试智能合约,如何将智能合约部署到以...

geek12345
39分钟前
4
0
Vlock用于有多个用户访问控制台的共享 Linux 系统

当你在共享的系统上工作时,你可能不希望其他用户偷窥你的控制台中看你在做什么。如果是这样,我知道有个简单的技巧来锁定自己的会话,同时仍然允许其他用户在其他虚拟控制台上使用该系统。 ...

linuxprobe16
40分钟前
1
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部