加载中
搜索引擎之朴素贝叶斯文本分类

文本分类(Text Classification) 文本分类的任务 把一个未见过的文档分成已知类别中的一个或多个 单层分类 多层分类 应用文本分类 对新闻或商品网页分类。例如:新闻是国内新闻还是国际新闻 ...

Goroutine并发调度模型深度解析&手撸一个协程池

并发(并行),一直以来都是一个编程语言里的核心主题之一,也是被开发者关注最多的话题;Go语言作为一个出道以来就自带 『高并发』光环的富二代编程语言,它的并发(并行)编程肯定是值得开...

2018/07/01 09:05
47
搜索引擎之基于概率语言模型的中文分词

语言模型是一个单纯的、统一的、抽象的形式系统,语言客观事实经过语言模型的描述,比较适合于电子计算机进行自动处理,因而语言模型对于自然语言的信息处理具有重大的意义。

深入golang之---goroutine并发控制与通信

开发go程序的时候,时常需要使用goroutine并发处理任务,有时候这些goroutine是相互独立的,而有的时候,多个goroutine之间常常是需要同步与通信的。另一种情况,主goroutine需要控制它所属的...

Go
2018/06/23 10:28
17
Lucene与中文分词

词是最小的能够独立活动的有意义的语言成分,英文单词之间是以空格作为自然分界符的,而汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文信息处理的基础与...

2015/04/29 09:50
140
Hits算法详解及python实现

本文简要介绍了目前搜索引擎中应用较为广泛的一种算法——HITS算法。HITS算法是Web结构挖掘中最具有权威性和使用最广泛的算法。其基本思想是利用页面之间的引用链来挖掘隐含在其中的有用信息...

基于MapReduce的ItemBase推荐算法的共现矩阵实现

一、概述 这2个月为公司数据挖掘系统做一些根据用户标签情况对用户的相似度进行评估,其中涉及一些推荐算法知识,在这段时间研究了一遍《推荐算法实践》和《Mahout in action》,在这里主要是...

hadoop平台wordcount程序的python实现

尽管Hadoop框架是用java写的,但是Hadoop程序不限于java,可以用python、C++、ruby等。本例子中直接用python写一个MapReduce实例,而不是用Jython把python代码转化成jar文件。...

Ubuntu下通过PPA仓库安装JDK

在Ubuntu14.04下通过PPA仓库安装JDK,这样就无需自己配置环境变量,完全自动配置好,比较方便,而且还可以保持JDK的版本是最新的.

2015/04/03 15:22
153
hadoop下基于mapreduce实现pagerank算法

PageRank,网页排名,又称网页级别、Google左侧排名或佩奇排名,是一种由[1] 根据网页之间相互的超链接计算的技术,而作为网页排名的要素之一,以Google公司创办人拉里·佩奇(Larry Page)之...

数据库内部排序算法之两阶段多路归并排序算法实现

两阶段归并排序算法是数据库查询的一个基础技术,在数据库应用中,常常采用“两阶段多路归并排序算法”来解决对海量数据的排序问题(这里的海量数据是指数据大小远远超过了数据库可用的主存的...

NoSQL数据库的分布式算法

本文译自 Distributed Algorithms in NoSQL Databases 系统的可扩展性是推动NoSQL运动发展的的主要理由,包含了分布式系统协调,故障转移,资源管理和许多其他特性。这么讲使得NoSQL听起来像...

2015/06/10 23:55
105
搜索引擎之有限状态机

中文分词中用规则识别的词 数字:123,456.781 90.7% 3/8 11/20/2000 日期:1998年 2009年12月24日10:30 缩略(包含不同的情况): 字母-点号-字母-点号组成的序列,比如:U.S. i.e. 等...

协同过滤Item-based算法实现电影推荐系统

采用离线式计算推荐给每位用户的电影,采用Item-based算法并做了适当修改,主要分两部分: 1.计算电影的相似度:利用调整的余弦相似度计算方法; 2.相似度加权求和:使用用户已打分的电影的分...

搜索引擎之未登录词(Out Of Vocabulary)识别问题

有人问道:南京市长叫江大桥? 你怎么知道的? 因为看到一个标语——南京市长江大桥欢迎您。 未登录词识别问题也叫做:命名实体识别(Named Entity Recognition) 常见的未登录词包括: 人名:...

hadoop自带例子程序wordcount详解

wordcount程序是hadoop中自带的一个程序,虽然是一个小程序,但是却完整地展现了hadoop的mapreduce编程模型,下面就来深入剖析这个程序,让初学者加深对mapreduce的理解。...

MySQL索引背后的数据结构及算法原理

本文以MySQL数据库为研究对象,讨论与数据库索引相关的一些话题。特别需要说明的是,MySQL支持诸多存储引擎,而各种存储引擎对索引的支持也各不相同,因此MySQL数据库支持多种索引类型,如B...

2015/05/10 22:43
13

没有更多内容

加载失败,请刷新页面

返回顶部
顶部