文档章节

相关词、替换词查询

Harry_sir
 Harry_sir
发布于 2017/08/25 18:59
字数 480
阅读 31
收藏 0

替代词、相关词: 例如在一批关于“一带一路”关键词的语料中,依据现有的语料找出“一带一路”的相关词(如“丝绸之路“”“习大大”等)。

【方案一】

利用关联规则中pfgrowth算法,输出与“一带一路”相关的规则。输出规则的一种意义是: 在Number(Number>minsupport)篇文章中,与 “一带一路”同时出现的词汇。若输出规则中词汇有意义,则Number越大,同规则中的词与“一带一路”越具有相关性。

在测试中,文章数量为1399篇,并约定最小支持度(minsupport)为100。

部分结果如下:如,共156篇文章中同时出现了“一带一路,习近平,高峰论坛,国家主席”。

一带一路,人文交流:106
一带一路,丝绸之路:159
一带一路,习近平,高峰论坛,国家主席:156
一带一路,习近平,国家主席:182
一带一路,高峰论坛,习近平:224
一带一路,高峰论坛,国际合作:545
一带一路,高峰论坛:609 

 

【方案二】

在1399篇与“一带一路”相关的文章中,利用主题抽取方法,输出多个主题。认为所得主题的Top词汇,作为“一带一路”的相关词。

结果如下:

国际合作 银行业 丝绸之路 投资者 人文交流 
高峰论坛 国家主席 大盘 个股 韩国 
沿线国家 习近平 资本 班列 人民币 
一带一路 美国 基金 板块 信息 
香港 产能合作 指数 新股 部长 

 

 

【方案三】

利用word2vec,输出“一带一路”的词向量。认为词向量中的词为“一带一路”的相关词。

“一带一路”词向量结果如下:

[生源, 山体, 乳业, 此前, 投资界, 责任心, 书籍, 埃尔多安, 高等院校, 涨升, 国家发改委]

© 著作权归作者所有

共有 人打赏支持
Harry_sir
粉丝 15
博文 80
码字总数 48004
作品 0
朝阳
其他
私信 提问
Elasticsearch:什么是相关性

我们已经注意到,搜索结果会以相关性的倒序方式返回。但是什么是相关性,它又是如何被计算出来的呢? 每一份被搜索出来的文档都带有一个由正的浮点数来表示的相关性评分,被称为score。这个分...

翟志军
2015/05/26
0
1
开源 免费 java CMS - FreeCMS1.6 敏感词管理

下载地址:http://code.google.com/p/freecms/ 敏感词管理 管理敏感词,系统会自动将敏感词替换为指定字符。 系统进行敏感词处理的功能有: 信息:标题,内容,摘要。 栏目:名称,描述。 评论...

freeteam
2014/03/05
0
0
开源 免费 java CMS - FreeCMS1.4 敏感词管理

下载地址:http://code.google.com/p/freecms/ 敏感词管理 从FreeCMS 1.4开始支持 管理敏感词,系统会自动将敏感词替换为指定字符。 系统进行敏感词处理的功能: 信息:标题,内容,摘要。 栏...

freeteam
2013/06/26
0
0
《深入理解Elasticsearch(原书第2版)》一第2章 查询DSL进阶

第2章 查询DSL进阶 在上一章,我们了解了什么是Apache Lucene,它的整体架构,以及文本分析过程是如何完成的。之后,我们还介绍了Lucene的查询语言及其用法。除此之外,我们也讨论了Elastic...

键走偏锋
2017/11/01
0
0
ElasticSearch 使用教程之_score(评分)介绍

前言 使用ES时,对于查询出的文档无疑会有文档相似度之别。而理想的排序是和查询条件相关性越高排序越靠前,而这个排序的依据就是。本文就是详解有关的信息,希望能对排序评分的理解有所帮助...

Airship
05/10
0
0

没有更多内容

加载失败,请刷新页面

加载更多

在Python中调用Java扩展包HanLP测试记录

最近在研究中文分词及自然语言相关的内容,关注到JAVA环境下的HanLP,HanLP是一个致力于向生产环境普及NLP技术的开源Java工具包,支持中文分词(N-最短路分词、CRF分词、索引分词、用户自定义...

左手的倒影
10分钟前
1
0
使用python读取mysql数据库并进行数据的操作

(一)环境的配置 使用python调用mysql数据库要引进一些库。 目前我使用的python版本是python3.6。引进库为pymysql 其他对应的库可以有以下选择: mysqldb,oursql, PyMySQL, myconnpy 等,参...

dragon_tech
15分钟前
1
0
基于阿里云物联网平台实现的简易出入监控

本文通过一个简单实例,主要介绍了如何使用树莓派快速接入阿里云iot platform,并实现了一个简易的监控人员出入并拍照上送钉钉群的场景 场景 在公司大门入口处布点树莓派和红外感应,实现出入...

阿里云官方博客
22分钟前
2
0
基于阿里云物联网平台,我们这样实现简易出入监控

本文通过一个简单实例,主要介绍了如何使用树莓派快速接入阿里云iot platform,并实现了一个简易的监控人员出入并拍照上送钉钉群的场景 场景 在公司大门入口处布点树莓派和红外感应,实现出入...

阿里云云栖社区
27分钟前
3
0
fedora linux for 龙芯查看实时输出的tomcat日志

软件源带的tomcat版本较低,所以建议从官网下载最新版本。 解压后,执行./startup.sh文件。 查看实时输出的tomcat日志,请使用命令tail -f /usr/share/tomcat/logs/catalina.out。 “/usr/sh...

gugudu
28分钟前
2
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部