文档章节

相关词、替换词查询

Harry_sir
 Harry_sir
发布于 2017/08/25 18:59
字数 480
阅读 17
收藏 0

替代词、相关词: 例如在一批关于“一带一路”关键词的语料中,依据现有的语料找出“一带一路”的相关词(如“丝绸之路“”“习大大”等)。

【方案一】

利用关联规则中pfgrowth算法,输出与“一带一路”相关的规则。输出规则的一种意义是: 在Number(Number>minsupport)篇文章中,与 “一带一路”同时出现的词汇。若输出规则中词汇有意义,则Number越大,同规则中的词与“一带一路”越具有相关性。

在测试中,文章数量为1399篇,并约定最小支持度(minsupport)为100。

部分结果如下:如,共156篇文章中同时出现了“一带一路,习近平,高峰论坛,国家主席”。

一带一路,人文交流:106
一带一路,丝绸之路:159
一带一路,习近平,高峰论坛,国家主席:156
一带一路,习近平,国家主席:182
一带一路,高峰论坛,习近平:224
一带一路,高峰论坛,国际合作:545
一带一路,高峰论坛:609 

 

【方案二】

在1399篇与“一带一路”相关的文章中,利用主题抽取方法,输出多个主题。认为所得主题的Top词汇,作为“一带一路”的相关词。

结果如下:

国际合作 银行业 丝绸之路 投资者 人文交流 
高峰论坛 国家主席 大盘 个股 韩国 
沿线国家 习近平 资本 班列 人民币 
一带一路 美国 基金 板块 信息 
香港 产能合作 指数 新股 部长 

 

 

【方案三】

利用word2vec,输出“一带一路”的词向量。认为词向量中的词为“一带一路”的相关词。

“一带一路”词向量结果如下:

[生源, 山体, 乳业, 此前, 投资界, 责任心, 书籍, 埃尔多安, 高等院校, 涨升, 国家发改委]

© 著作权归作者所有

共有 人打赏支持
Harry_sir
粉丝 14
博文 80
码字总数 48004
作品 0
朝阳
其他
《深入理解Elasticsearch(原书第2版)》一第2章 查询DSL进阶

第2章 查询DSL进阶 在上一章,我们了解了什么是Apache Lucene,它的整体架构,以及文本分析过程是如何完成的。之后,我们还介绍了Lucene的查询语言及其用法。除此之外,我们也讨论了Elastic...

哲别0
2017/11/01
0
0
Elasticsearch:什么是相关性

我们已经注意到,搜索结果会以相关性的倒序方式返回。但是什么是相关性,它又是如何被计算出来的呢? 每一份被搜索出来的文档都带有一个由正的浮点数来表示的相关性评分,被称为score。这个分...

翟志军
2015/05/26
0
1
开源 免费 java CMS - FreeCMS1.6 敏感词管理

下载地址:http://code.google.com/p/freecms/ 敏感词管理 管理敏感词,系统会自动将敏感词替换为指定字符。 系统进行敏感词处理的功能有: 信息:标题,内容,摘要。 栏目:名称,描述。 评论...

freeteam
2014/03/05
0
0
开源 免费 java CMS - FreeCMS1.4 敏感词管理

下载地址:http://code.google.com/p/freecms/ 敏感词管理 从FreeCMS 1.4开始支持 管理敏感词,系统会自动将敏感词替换为指定字符。 系统进行敏感词处理的功能: 信息:标题,内容,摘要。 栏...

freeteam
2013/06/26
0
0
经典检索算法:BM25原理

image.png 本文cmd地址:经典检索算法:BM25原理 bm25 是什么? bm25 是一种用来评价搜索词和文档之间相关性的算法,它是一种基于概率检索模型提出的算法,再用简单的话来描述下bm25算法:我...

超级个体颛顼
2017/12/06
0
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

配置Spring的注解支持

声明:本栏目所使用的素材都是凯哥学堂VIP学员所写,学员有权匿名,对文章有最终解释权;凯哥学堂旨在促进VIP学员互相学习的基础上公开笔记。 配置Spring的注解支持 以上也提到了使用注解来配...

凯哥学堂
39分钟前
0
0
关于Spring Aop存在的一点问题的思考

在本人前面的文章Spring Aop原理之切点表达式解析中讲解了Spring是如何解析切点表达式的,在分析源码的时候,出现了如下将要讲述的问题,我认为是不合理的,后来本人单纯使用aspectj进行试验...

爱宝贝丶
41分钟前
0
0
JavaScript 概述

JavaScript是面向Web的编程语言。绝大多数现代网站都使用了JavaScript,并且所有的现代Web浏览器——基于桌面系统、游戏机、平板电脑和智能手机的浏览器——均包含了JavaScript解释器。这使得...

Mr_ET
今天
0
0
Java Run-Time Data Areas(Java运行时数据区/内存分配)

Java运行时数据区(内存分配) 本文转载官网 更多相关内容可查看官网 中文翻译可参考 2.5. Run-Time Data Areas The Java Virtual Machine defines various run-time data areas that are use...

lichuangnk
今天
0
0
docker learn :services docker-compose.yml

docker-compose.yml定义了服务的运行参数 version: "3" services: web: # replace username/repo:tag with your name and image details image: hub.c.163.com/dog948453219/friendlyhello d......

writeademo
今天
0
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部