加载中
MAC地址前三位,以及对应机构名称

MAC地址前三位,以及对应机构名称 官网地址: http://standards-oui.ieee.org/oui/oui.txt PS: MAC(Media Access Control)地址,也叫硬件地址,长度是48比特(6字节),由16进制的数字组成...

2016/08/01 15:40
2.9K
使用TextRank生成文本摘要

因为项目内容中涉及自动生成文本摘要的功能,因此学习了一下TextRank算法实现摘要提取。 1.介绍一下TextRank算法 TextRank算法的思想是,拟定一个通用的评分标准,给文本中的每一个句子打分,...

2019/04/01 00:00
330
自动文本摘要(automatic text summarization)目前的研究方法分类

自动文本摘要通常可分为两类,分别是抽取式(extractive)和生成式(abstractive)。 (1)抽取式摘要判断原文本中重要的句子,抽取这些句子成为一篇摘要。 (2)生成式方法则应用先进的自然...

2019/03/31 23:59
638
TextRank算法自动摘要的Java实现

上次写过《TextRank算法提取关键词的Java实现》,这次用TextRank实现文章的自动摘要。 所谓自动摘要,就是从文章中自动抽取关键句。何谓关键句?人类的理解是能够概括文章中心的句子,机器的...

2019/03/31 23:59
1.2K
自然语言处理NLP中的N-gram模型

自然语言处理NLP中的N-gram模型 自然语言处理NLP中的N-gram模型 Naive Bayes N-gram N-gram简介 N-gram中的概率计算 N-gram的用途 用途一:词性标注 用途二:垃圾短信分类 用途三:分词器 用...

2019/02/24 21:54
3.3K
100+个NLP数据集

jieba 结巴中文分词 13031 Github spaCy 💫 Industrial-strength Natural Language Processing (NLP) with Python and Cython 9030 Github gensim Topic Modelling for Humans 6837 Github...

2019/02/24 20:04
526
N-gram的原理、用途和研究

N-gram的原理、用途和研究 N-gram的基本原理 转自:http://blog.sciencenet.cn/blog-713101-797384.html N-gram是计算机语言学和概率论范畴内的概念,是指给定的一段文本或语音中N个项目(i...

2017/08/23 07:45
387
开源 | 哈佛大学九大自然语言处理开源项目(附论文)

选自 Github 机器之心编译 参与:杜夏德、李泽南、吴攀 在这篇文章中,我们盘点了哈佛大学开源的 9 大有关自然语言处理的项目。虽然里面的代码是研究代码(通常还有一些使用的注意事项),但...

2017/08/20 22:08
262
博士论文《基于神经网络的词和文档语义向量表示方法研究》

2016 年 2 月 15 日 BY LICSTAR·57条评论 前前后后写论文也有将近一年的时间了。这个研究的课题到目前还比较热门,在此分享博士论文。希望读者有所收获,少走一些弯路。 论文下载地址:htt...

2017/08/20 21:39
382
《How to Generate a Good Word Embedding?》导读

  自认为这是一篇有用的文章,因此在发表之前先放到 arXiv 上,供大家参考,请批评指正。   论文地址:http://arxiv.org/abs/1507.05523   实验代码地址:https://github.com/licstar/...

2017/08/20 21:39
35
Deep Learning in NLP (一)词向量和语言模型

这篇博客是我看了半年的论文后,自己对 Deep Learning 在 NLP 领域中应用的理解和总结,在此分享。其中必然有局限性,欢迎各种交流,随便拍。   Deep Learning 算法已经在图像和音频领域取...

2017/08/20 21:29
98
深度学习、自然语言处理和表征方法

翻译:XiaoxiaoLi 简介 过去几年,深度神经网络在模式识别中占绝对主流。它们在许多计算机视觉任务中完爆之前的顶尖算法。在语音识别上也有这个趋势了。 虽然结果好,我们也必须思考……它们...

2017/08/19 07:30
64
有谁可以解释下word embedding?

最近在学nlp然后看到这个词了wiki的英文解释没太理解,求中文的解释。。

2017/08/19 07:29
251
TF-IDF与余弦相似性的应用(三):自动摘要

作者: 阮一峰 日期: 2013年3月26日 有时候,很简单的数学方法,就可以完成很复杂的任务。 这个系列的前两部分就是很好的例子。仅仅依靠统计词频,就能找出关键词和相似文章。虽然它们算不上...

2017/08/18 22:42
8
TF-IDF与余弦相似性的应用(二):找出相似文章

作者: 阮一峰 日期: 2013年3月21日 上一次,我用TF-IDF算法自动提取关键词。 今天,我们再来研究另一个相关的问题。有些时候,除了找到关键词,我们还希望找到与原文章相似的其他文章。比如...

2017/08/18 22:38
36
CRF条件随机场简介

CRF(Conditional Random Field) 条件随机场是近几年自然语言处理领域常用的算法之一,常用于句法分析、命名实体识别、词性标注等。在我看来,CRF就像一个反向的隐马尔可夫模型(HMM),两者都是...

2017/08/17 07:25
133
Brown Clustering算法和代码学习

一、算法 布朗聚类是一种自底向上的层次聚类算法,基于n-gram模型和马尔科夫链模型。布朗聚类是一种硬聚类,每一个词都在且只在唯一的一个类中。 w是词,c是词所属的类。 布朗聚类的输入是一...

2017/05/09 07:51
119
LTP语言云API使用文档

简介 语言云新版API是REST风格的WEB API调用服务,REST API服务有诸多优点,这使得它越来越流行。应用于语言云服务中,主要有如下特点: 免SDK安装:REST API的调用无须用户下载SDK,使得语言...

2015/02/27 20:48
741
中国羊年把全世界的英文媒体搞疯了..你们究竟是哪种羊啊!

2015-02-14英国那些事儿 话说。。事情是这样的。。。 中国的羊年很快就要到了。。 本来中国人庆祝羊年是一个很正常的事情。。 当然老外也想掺和一把。 然后,这群老外们突然发现了一个很纠结...

2015/02/15 13:57
65
千万级巨型汉语词库分享

算法+语料≈NLP 这是一个六千万词汇量的分类词库,做HanLP这么久,我逐渐体会到,算法无法解决所有问题,词库也非常重要。通常一个算法可以解决80%的问题,剩下的20%无论怎么调节优化,都是拆...

2015/02/05 22:58
5.2K

没有更多内容

加载失败,请刷新页面

返回顶部
顶部