加载中
搜索引擎之未登录词(Out Of Vocabulary)识别问题

有人问道:南京市长叫江大桥? 你怎么知道的? 因为看到一个标语——南京市长江大桥欢迎您。 未登录词识别问题也叫做:命名实体识别(Named Entity Recognition) 常见的未登录词包括: 人名:...

搜索引擎之有限状态机

中文分词中用规则识别的词 数字:123,456.781 90.7% 3/8 11/20/2000 日期:1998年 2009年12月24日10:30 缩略(包含不同的情况): 字母-点号-字母-点号组成的序列,比如:U.S. i.e. 等...

搜索引擎之朴素贝叶斯文本分类

文本分类(Text Classification) 文本分类的任务 把一个未见过的文档分成已知类别中的一个或多个 单层分类 多层分类 应用文本分类 对新闻或商品网页分类。例如:新闻是国内新闻还是国际新闻 ...

NoSQL数据库的分布式算法

本文译自 Distributed Algorithms in NoSQL Databases 系统的可扩展性是推动NoSQL运动发展的的主要理由,包含了分布式系统协调,故障转移,资源管理和许多其他特性。这么讲使得NoSQL听起来像...

2015/06/10 23:55
105
多种算法解决电路板排线问题

【回溯法】电路板排列问题 问题描述: 将n块电路板以最佳排列方式插入带有n个插槽的机箱中。n块电路板的不同排列方式对应于不同的电路板插入方案。设B={1, 2, …, n}是n块 电路板的集合,L={...

网络爬虫详解与python实现

网络爬虫是捜索引擎抓取系统的重要组成部分。爬虫的主要目的是将互联网上的网页下载到本地形成一个或联网内容的镜像备份。这篇博客主要对爬虫以及抓取系统进行一个简单的概述。 一、网络爬虫...

2015/06/10 11:38
136
用Dijkstra算法求解无向图的最短路径

  Dijkstra算法是典型的算法。Dijkstra算法是很有代表性的算法。Dijkstra一般的表述通常有两种方式,一种用永久和临时标号方式,一种是用OPEN, CLOSE表的方式,这里均采用永久和临时标号的...

世界名画陈列馆问题(回溯法)

一、算法问题描述: 世界名画陈列馆问题。世界名画陈列馆由m×n个排列成矩形阵列的陈列室组成。为了防止名画被盗,需要在陈列室中设置警卫机器人哨位。每个警卫机器人除了监视它所在的陈列室...

2015/04/29 11:56
1K
数据库内部排序算法之两阶段多路归并排序算法实现

两阶段归并排序算法是数据库查询的一个基础技术,在数据库应用中,常常采用“两阶段多路归并排序算法”来解决对海量数据的排序问题(这里的海量数据是指数据大小远远超过了数据库可用的主存的...

64位Ubuntu14.04编译hadoop2.6

由于官方的hadoop是在32位机子上编译的,故64位linux系统需下载hadoop源码进行编译后才能使用

2015/04/03 16:13
45
Goroutine并发调度模型深度解析&手撸一个协程池

并发(并行),一直以来都是一个编程语言里的核心主题之一,也是被开发者关注最多的话题;Go语言作为一个出道以来就自带 『高并发』光环的富二代编程语言,它的并发(并行)编程肯定是值得开...

2018/07/01 09:05
47
搜索引擎之基于概率语言模型的中文分词

语言模型是一个单纯的、统一的、抽象的形式系统,语言客观事实经过语言模型的描述,比较适合于电子计算机进行自动处理,因而语言模型对于自然语言的信息处理具有重大的意义。

Hits算法详解及python实现

本文简要介绍了目前搜索引擎中应用较为广泛的一种算法——HITS算法。HITS算法是Web结构挖掘中最具有权威性和使用最广泛的算法。其基本思想是利用页面之间的引用链来挖掘隐含在其中的有用信息...

python之迭代器和生成器

本文以实例详解了python的迭代器与生成器,具体如下所示: 1. 迭代器概述: 迭代器是访问集合元素的一种方式。迭代器对象从集合的第一个元素开始访问,直到所有的元素被访问完结束。迭代器只...

java之hashtable和hashmap

hashtable和hashmap是java里面常见的容器类,是Java.uitl包下面的类, 那么Hashtable和Hashmap是怎么实现hash键值对配对的呢,我们看看jdk里面的源码,分析下Hashtable的构造方法,put(K, V)...

Ubuntu下通过PPA仓库安装JDK

在Ubuntu14.04下通过PPA仓库安装JDK,这样就无需自己配置环境变量,完全自动配置好,比较方便,而且还可以保持JDK的版本是最新的.

2015/04/03 15:22
153
Hash算法之MD5算法详解及实现

MD5即Message-Digest Algorithm 5(信息-摘要算法5),用于确保信息传输完整一致。是计算机广泛使用的杂凑算法之一(又译摘要算法、哈希算法),主流编程语言普遍已有MD5实现。将数据(如汉字...

没有更多内容

加载失败,请刷新页面

返回顶部
顶部