加载中
搜索引擎之朴素贝叶斯文本分类

文本分类(Text Classification) 文本分类的任务 把一个未见过的文档分成已知类别中的一个或多个 单层分类 多层分类 应用文本分类 对新闻或商品网页分类。例如:新闻是国内新闻还是国际新闻 ...

Hits算法详解及python实现

本文简要介绍了目前搜索引擎中应用较为广泛的一种算法——HITS算法。HITS算法是Web结构挖掘中最具有权威性和使用最广泛的算法。其基本思想是利用页面之间的引用链来挖掘隐含在其中的有用信息...

搜索引擎之基于概率语言模型的中文分词

语言模型是一个单纯的、统一的、抽象的形式系统,语言客观事实经过语言模型的描述,比较适合于电子计算机进行自动处理,因而语言模型对于自然语言的信息处理具有重大的意义。

hadoop平台wordcount程序的python实现

尽管Hadoop框架是用java写的,但是Hadoop程序不限于java,可以用python、C++、ruby等。本例子中直接用python写一个MapReduce实例,而不是用Jython把python代码转化成jar文件。...

数据库内部排序算法之两阶段多路归并排序算法实现

两阶段归并排序算法是数据库查询的一个基础技术,在数据库应用中,常常采用“两阶段多路归并排序算法”来解决对海量数据的排序问题(这里的海量数据是指数据大小远远超过了数据库可用的主存的...

hadoop自带例子程序wordcount详解

wordcount程序是hadoop中自带的一个程序,虽然是一个小程序,但是却完整地展现了hadoop的mapreduce编程模型,下面就来深入剖析这个程序,让初学者加深对mapreduce的理解。...

Hash算法之MD5算法详解及实现

MD5即Message-Digest Algorithm 5(信息-摘要算法5),用于确保信息传输完整一致。是计算机广泛使用的杂凑算法之一(又译摘要算法、哈希算法),主流编程语言普遍已有MD5实现。将数据(如汉字...

Lucene与中文分词

词是最小的能够独立活动的有意义的语言成分,英文单词之间是以空格作为自然分界符的,而汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文信息处理的基础与...

2015/04/29 09:50
140
搜索引擎之未登录词(Out Of Vocabulary)识别问题

有人问道:南京市长叫江大桥? 你怎么知道的? 因为看到一个标语——南京市长江大桥欢迎您。 未登录词识别问题也叫做:命名实体识别(Named Entity Recognition) 常见的未登录词包括: 人名:...

世界名画陈列馆问题(回溯法)

一、算法问题描述: 世界名画陈列馆问题。世界名画陈列馆由m×n个排列成矩形阵列的陈列室组成。为了防止名画被盗,需要在陈列室中设置警卫机器人哨位。每个警卫机器人除了监视它所在的陈列室...

2015/04/29 11:56
1K
网络爬虫详解与python实现

网络爬虫是捜索引擎抓取系统的重要组成部分。爬虫的主要目的是将互联网上的网页下载到本地形成一个或联网内容的镜像备份。这篇博客主要对爬虫以及抓取系统进行一个简单的概述。 一、网络爬虫...

2015/06/10 11:38
136

没有更多内容

加载失败,请刷新页面

没有更多内容

返回顶部
顶部