文档章节

相关词、替换词查询

Harry_sir
 Harry_sir
发布于 2017/08/25 18:59
字数 480
阅读 25
收藏 0

替代词、相关词: 例如在一批关于“一带一路”关键词的语料中,依据现有的语料找出“一带一路”的相关词(如“丝绸之路“”“习大大”等)。

【方案一】

利用关联规则中pfgrowth算法,输出与“一带一路”相关的规则。输出规则的一种意义是: 在Number(Number>minsupport)篇文章中,与 “一带一路”同时出现的词汇。若输出规则中词汇有意义,则Number越大,同规则中的词与“一带一路”越具有相关性。

在测试中,文章数量为1399篇,并约定最小支持度(minsupport)为100。

部分结果如下:如,共156篇文章中同时出现了“一带一路,习近平,高峰论坛,国家主席”。

一带一路,人文交流:106
一带一路,丝绸之路:159
一带一路,习近平,高峰论坛,国家主席:156
一带一路,习近平,国家主席:182
一带一路,高峰论坛,习近平:224
一带一路,高峰论坛,国际合作:545
一带一路,高峰论坛:609 

 

【方案二】

在1399篇与“一带一路”相关的文章中,利用主题抽取方法,输出多个主题。认为所得主题的Top词汇,作为“一带一路”的相关词。

结果如下:

国际合作 银行业 丝绸之路 投资者 人文交流 
高峰论坛 国家主席 大盘 个股 韩国 
沿线国家 习近平 资本 班列 人民币 
一带一路 美国 基金 板块 信息 
香港 产能合作 指数 新股 部长 

 

 

【方案三】

利用word2vec,输出“一带一路”的词向量。认为词向量中的词为“一带一路”的相关词。

“一带一路”词向量结果如下:

[生源, 山体, 乳业, 此前, 投资界, 责任心, 书籍, 埃尔多安, 高等院校, 涨升, 国家发改委]

© 著作权归作者所有

共有 人打赏支持
Harry_sir
粉丝 14
博文 80
码字总数 48004
作品 0
朝阳
其他
Elasticsearch:什么是相关性

我们已经注意到,搜索结果会以相关性的倒序方式返回。但是什么是相关性,它又是如何被计算出来的呢? 每一份被搜索出来的文档都带有一个由正的浮点数来表示的相关性评分,被称为score。这个分...

翟志军
2015/05/26
0
1
《深入理解Elasticsearch(原书第2版)》一第2章 查询DSL进阶

第2章 查询DSL进阶 在上一章,我们了解了什么是Apache Lucene,它的整体架构,以及文本分析过程是如何完成的。之后,我们还介绍了Lucene的查询语言及其用法。除此之外,我们也讨论了Elastic...

键走偏锋
2017/11/01
0
0
开源 免费 java CMS - FreeCMS1.6 敏感词管理

下载地址:http://code.google.com/p/freecms/ 敏感词管理 管理敏感词,系统会自动将敏感词替换为指定字符。 系统进行敏感词处理的功能有: 信息:标题,内容,摘要。 栏目:名称,描述。 评论...

freeteam
2014/03/05
0
0
开源 免费 java CMS - FreeCMS1.4 敏感词管理

下载地址:http://code.google.com/p/freecms/ 敏感词管理 从FreeCMS 1.4开始支持 管理敏感词,系统会自动将敏感词替换为指定字符。 系统进行敏感词处理的功能: 信息:标题,内容,摘要。 栏...

freeteam
2013/06/26
0
0
经典检索算法:BM25原理

image.png 本文cmd地址:经典检索算法:BM25原理 bm25 是什么? bm25 是一种用来评价搜索词和文档之间相关性的算法,它是一种基于概率检索模型提出的算法,再用简单的话来描述下bm25算法:我...

超级个体颛顼
2017/12/06
0
0

没有更多内容

加载失败,请刷新页面

加载更多

IDEA 鼠标跳到下一行

敲代码时有时会出现这样的情况,鼠标在图中的位置,还需要手动将鼠标移动到这行的末尾然后再回车才能到新的一行。 用【Shift + Enter】,可以【IDEA新建一行,并且光标移到新行】...

karma123
14分钟前
3
0
在Kubernetes集群中部署ownCloud云盘系统

ownCloud ownCloud is a file sharing server that puts the control and security of your own data back into your hands. 参考 建立自己的共享云盘 - 使用ownCloud 远程访问家里机器的文件......

openthings
16分钟前
1
0
Python编写的以太坊虚拟机的新实现Py-EVM

Py-EVM是用Python编写的以太坊虚拟机的新实现。目前github上695个star,正在积极开发中,但正在通过以太坊/测试提供的测试套件快速推进。我们感谢有Vitalik和现有的PyEthereum代码,使得我们...

geek12345
18分钟前
1
0
(2)集成element-ui

(2)集成element-ui 1 安装element-ui依赖 cnpm install --save element-ui 2 按需引入 借助 babel-plugin-component,我们可以只引入需要的组件,以达到减小项目体积的目的。 首先,安装 ...

neumeng
22分钟前
2
0
linux下tree命令的用法解释

tree命令,主要功能是创建文件列表,将所有文件以树的形式列出来 linux下的tree就比较强大了,但一般系统并不自带这个命令,需要手动下载安装。 安装 : 1 yum -y install tree -a 显示所有文...

嘘嘘者
36分钟前
3
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部