加载中
搜索引擎之基于概率语言模型的中文分词

语言模型是一个单纯的、统一的、抽象的形式系统,语言客观事实经过语言模型的描述,比较适合于电子计算机进行自动处理,因而语言模型对于自然语言的信息处理具有重大的意义。

python之迭代器和生成器

本文以实例详解了python的迭代器与生成器,具体如下所示: 1. 迭代器概述: 迭代器是访问集合元素的一种方式。迭代器对象从集合的第一个元素开始访问,直到所有的元素被访问完结束。迭代器只...

Hits算法详解及python实现

本文简要介绍了目前搜索引擎中应用较为广泛的一种算法——HITS算法。HITS算法是Web结构挖掘中最具有权威性和使用最广泛的算法。其基本思想是利用页面之间的引用链来挖掘隐含在其中的有用信息...

POJ-1192(最优连通子集)

Description 众所周知,我们可以通过直角坐标系把平面上的任何一个点P用一个有序数对(x, y)来唯一表示,如果x, y都是整数,我们就把点P称为整点,否则点P称为非整点。我们把平面上所有整点构...

2015/05/12 09:38
12
构建自己的搜索引擎之Lucene详解

要开发自己的搜索引擎,就不得不用到Apache基金会的Luence项目,这个项目是一个开放源代码的全文检索引擎工具包,利用Lucene,可以很快捷地开发出自己的搜索引擎。

2015/04/17 23:32
166
多种算法解决电路板排线问题

【回溯法】电路板排列问题 问题描述: 将n块电路板以最佳排列方式插入带有n个插槽的机箱中。n块电路板的不同排列方式对应于不同的电路板插入方案。设B={1, 2, …, n}是n块 电路板的集合,L={...

操作系统之银行家算法

操作系统中的死锁会引起计算机工作僵死,因此操作系统中必须防止。本博文独立地使用高级语言编写和调试一个系统动态分配资源的简单模拟程序,了解死锁产生的条件和原因,并采用银行家算法有效...

搜索引擎之词典查找

散列与最长词匹配: 散列是一种常见的高效查找方法,它根据数组下标查询,所以速度快。首先根据词表构造散列表,具体来说就是用给定的散列函数构造词典到数组下标的映射,如果存在冲突,则根...

搜索引擎之未登录词(Out Of Vocabulary)识别问题

有人问道:南京市长叫江大桥? 你怎么知道的? 因为看到一个标语——南京市长江大桥欢迎您。 未登录词识别问题也叫做:命名实体识别(Named Entity Recognition) 常见的未登录词包括: 人名:...

网络爬虫详解与python实现

网络爬虫是捜索引擎抓取系统的重要组成部分。爬虫的主要目的是将互联网上的网页下载到本地形成一个或联网内容的镜像备份。这篇博客主要对爬虫以及抓取系统进行一个简单的概述。 一、网络爬虫...

2015/06/10 11:38
136
基于MapReduce的ItemBase推荐算法的共现矩阵实现

一、概述 这2个月为公司数据挖掘系统做一些根据用户标签情况对用户的相似度进行评估,其中涉及一些推荐算法知识,在这段时间研究了一遍《推荐算法实践》和《Mahout in action》,在这里主要是...

hadoop自带例子程序wordcount详解

wordcount程序是hadoop中自带的一个程序,虽然是一个小程序,但是却完整地展现了hadoop的mapreduce编程模型,下面就来深入剖析这个程序,让初学者加深对mapreduce的理解。...

NoSQL数据库的分布式算法

本文译自 Distributed Algorithms in NoSQL Databases 系统的可扩展性是推动NoSQL运动发展的的主要理由,包含了分布式系统协调,故障转移,资源管理和许多其他特性。这么讲使得NoSQL听起来像...

2015/06/10 23:55
105

没有更多内容

加载失败,请刷新页面

没有更多内容

返回顶部
顶部