加载中
搜索引擎之未登录词(Out Of Vocabulary)识别问题

有人问道:南京市长叫江大桥? 你怎么知道的? 因为看到一个标语——南京市长江大桥欢迎您。 未登录词识别问题也叫做:命名实体识别(Named Entity Recognition) 常见的未登录词包括: 人名:...

搜索引擎之基于概率语言模型的中文分词

语言模型是一个单纯的、统一的、抽象的形式系统,语言客观事实经过语言模型的描述,比较适合于电子计算机进行自动处理,因而语言模型对于自然语言的信息处理具有重大的意义。

搜索引擎之朴素贝叶斯文本分类

文本分类(Text Classification) 文本分类的任务 把一个未见过的文档分成已知类别中的一个或多个 单层分类 多层分类 应用文本分类 对新闻或商品网页分类。例如:新闻是国内新闻还是国际新闻 ...

Lucene与中文分词

词是最小的能够独立活动的有意义的语言成分,英文单词之间是以空格作为自然分界符的,而汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文信息处理的基础与...

2015/04/29 09:50
165
Lucene构建个人搜索引擎解析

Lucene是什么? Lucene是apache软件基金会4 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,但它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的...

构建自己的搜索引擎之Lucene详解

要开发自己的搜索引擎,就不得不用到Apache基金会的Luence项目,这个项目是一个开放源代码的全文检索引擎工具包,利用Lucene,可以很快捷地开发出自己的搜索引擎。

2015/04/17 23:32
965
读史时,哪些故事让你动容?

读史,动容莫过于见证一个一个悲剧的发生。 诸葛孔明 读《三国演义》之时,我感觉像是亲历了孔明一生的大起大落,从踌躇满志辅佐刘皇叔兴复汉室,到最后回天无力命陨五丈原,可悲,可叹,可泪...

2018/05/23 10:46
0
64位Ubuntu14.04下安装hadoop2.6单机配置和伪分布配置详解

环境 系统: Ubuntu 14.04 64bit Hadoop版本: Hadoop 2.6.0 (stable) JDK版本: oracle jdk7 第一步 在Ubuntu下创建hadoop用户组和用户 创建hadoop用户组 sudo addgroup hadoop 2.创建...

搜索引擎之有限状态机

中文分词中用规则识别的词 数字:123,456.781 90.7% 3/8 11/20/2000 日期:1998年 2009年12月24日10:30 缩略(包含不同的情况): 字母-点号-字母-点号组成的序列,比如:U.S. i.e. 等...

搜索引擎之词典查找

散列与最长词匹配: 散列是一种常见的高效查找方法,它根据数组下标查询,所以速度快。首先根据词表构造散列表,具体来说就是用给定的散列函数构造词典到数组下标的映射,如果存在冲突,则根...

协同过滤Item-based算法实现电影推荐系统

摘要: 采用离线式计算推荐给每位用户的电影,采用Item-based算法并做了适当修改, 主要分两部分: 计算电影的相似度:利用调整的余弦相似度计算方法; 相似度加权求和:使用用户已打分的电影...

2018/06/08 21:25
12
协同过滤Item-based算法实现电影推荐系统

采用离线式计算推荐给每位用户的电影,采用Item-based算法并做了适当修改,主要分两部分: 1.计算电影的相似度:利用调整的余弦相似度计算方法; 2.相似度加权求和:使用用户已打分的电影的分...

Hash算法之MD5算法详解及实现

MD5即Message-Digest Algorithm 5(信息-摘要算法5),用于确保信息传输完整一致。是计算机广泛使用的杂凑算法之一(又译摘要算法、哈希算法),主流编程语言普遍已有MD5实现。将数据(如汉字...

Spark的分区机制的应用及PageRank算法的实现

佩奇排名(PageRank),又称网页排名、谷歌左侧排名,是一种由搜索引擎根据网页之间相互的超链接计算的技术,而作为网页排名的要素之一,以Google公司创办人拉里·佩奇(Larry Page)之姓来命...

后会有期

时 光 shí guāng 一晃,毕业两年了,还真有一种恍如隔世的错觉。明明熬夜改毕业论文仿佛还是前几天的事情,怎么今天就成了一个在办公室朝九晚五的上班族了?人呐,总是抛不掉过去,总是不情...

2018/10/25 16:44
12
MySQL索引背后的数据结构及算法原理

本文以MySQL数据库为研究对象,讨论与数据库索引相关的一些话题。特别需要说明的是,MySQL支持诸多存储引擎,而各种存储引擎对索引的支持也各不相同,因此MySQL数据库支持多种索引类型,如B...

2015/05/10 22:43
14
【译】为什么 Kafka 这么快?

点击蓝字,关注我 为什么 Kafka 如此地快 探究是哪些精妙的设计决策使得 Kafka 成为了现如今的性能强者。 软件体系结构在过去的几年间发生了巨大的变化。单体应用程序或甚至几个粗粒度的服务...

hadoop自带例子程序wordcount详解

wordcount程序是hadoop中自带的一个程序,虽然是一个小程序,但是却完整地展现了hadoop的mapreduce编程模型,下面就来深入剖析这个程序,让初学者加深对mapreduce的理解。...

Linux IO模式及 select、poll、epoll详解

注:本文是对众多博客的学习和总结,可能存在理解错误。请带着怀疑的眼光,同时如果有错误希望能指出。 同步IO和异步IO,阻塞IO和非阻塞IO分别是什么,到底有什么区别?不同的人在不同的上下...

2019/01/12 20:39
0

没有更多内容

加载失败,请刷新页面

返回顶部
顶部