文档章节

相关词、替换词查询

Harry_sir
 Harry_sir
发布于 2017/08/25 18:59
字数 480
阅读 13
收藏 0
点赞 0
评论 0

替代词、相关词: 例如在一批关于“一带一路”关键词的语料中,依据现有的语料找出“一带一路”的相关词(如“丝绸之路“”“习大大”等)。

【方案一】

利用关联规则中pfgrowth算法,输出与“一带一路”相关的规则。输出规则的一种意义是: 在Number(Number>minsupport)篇文章中,与 “一带一路”同时出现的词汇。若输出规则中词汇有意义,则Number越大,同规则中的词与“一带一路”越具有相关性。

在测试中,文章数量为1399篇,并约定最小支持度(minsupport)为100。

部分结果如下:如,共156篇文章中同时出现了“一带一路,习近平,高峰论坛,国家主席”。

一带一路,人文交流:106
一带一路,丝绸之路:159
一带一路,习近平,高峰论坛,国家主席:156
一带一路,习近平,国家主席:182
一带一路,高峰论坛,习近平:224
一带一路,高峰论坛,国际合作:545
一带一路,高峰论坛:609 

 

【方案二】

在1399篇与“一带一路”相关的文章中,利用主题抽取方法,输出多个主题。认为所得主题的Top词汇,作为“一带一路”的相关词。

结果如下:

国际合作 银行业 丝绸之路 投资者 人文交流 
高峰论坛 国家主席 大盘 个股 韩国 
沿线国家 习近平 资本 班列 人民币 
一带一路 美国 基金 板块 信息 
香港 产能合作 指数 新股 部长 

 

 

【方案三】

利用word2vec,输出“一带一路”的词向量。认为词向量中的词为“一带一路”的相关词。

“一带一路”词向量结果如下:

[生源, 山体, 乳业, 此前, 投资界, 责任心, 书籍, 埃尔多安, 高等院校, 涨升, 国家发改委]

© 著作权归作者所有

共有 人打赏支持
Harry_sir
粉丝 14
博文 80
码字总数 48004
作品 0
朝阳
其他
Elasticsearch:什么是相关性

我们已经注意到,搜索结果会以相关性的倒序方式返回。但是什么是相关性,它又是如何被计算出来的呢? 每一份被搜索出来的文档都带有一个由正的浮点数来表示的相关性评分,被称为score。这个分...

翟志军 ⋅ 2015/05/26 ⋅ 1

开源 免费 java CMS - FreeCMS1.6 敏感词管理

下载地址:http://code.google.com/p/freecms/ 敏感词管理 管理敏感词,系统会自动将敏感词替换为指定字符。 系统进行敏感词处理的功能有: 信息:标题,内容,摘要。 栏目:名称,描述。 评论...

freeteam ⋅ 2014/03/05 ⋅ 0

开源 免费 java CMS - FreeCMS1.4 敏感词管理

下载地址:http://code.google.com/p/freecms/ 敏感词管理 从FreeCMS 1.4开始支持 管理敏感词,系统会自动将敏感词替换为指定字符。 系统进行敏感词处理的功能: 信息:标题,内容,摘要。 栏...

freeteam ⋅ 2013/06/26 ⋅ 0

经典检索算法:BM25原理

image.png 本文cmd地址:经典检索算法:BM25原理 bm25 是什么? bm25 是一种用来评价搜索词和文档之间相关性的算法,它是一种基于概率检索模型提出的算法,再用简单的话来描述下bm25算法:我...

超级个体颛顼 ⋅ 2017/12/06 ⋅ 0

ElasticSearch 使用教程之_score(评分)介绍

前言 使用ES时,对于查询出的文档无疑会有文档相似度之别。而理想的排序是和查询条件相关性越高排序越靠前,而这个排序的依据就是。本文就是详解有关的信息,希望能对排序评分的理解有所帮助...

Airship ⋅ 05/10 ⋅ 0

双数组字典树关键词查询匹配和替换

大家在进行关键词匹配和替换的时候都是用的什么算法?很多人都可能有这样的需求,比如聊天文本中的敏感词替换、html文本中的关键词加超链接等。不深入技术算法和时刻关注程序性能的人来说,就...

BoXuan ⋅ 2016/12/24 ⋅ 1

空间向量模型lucene

把一篇文档看作是一系列词元的集合,每个词元都有一个权重,如下: Document A= {termX, termY, termZ …… termN} Document B= {termX, termY, termZ …… termN} DocumentVector = {weigh...

红薯123 ⋅ 2015/04/07 ⋅ 0

rongcloud/server-sdk-php

server-sdk-php 更新日期 2015-12-28 新增 聊天室成员禁言,封禁;推送服务 ============== 更新日期 2015-10-21 新增 发送讨论组消息 接口 ============== 更新日期 2015-10-14 新增 群组成员...

rongcloud ⋅ 2015/02/03 ⋅ 0

全文搜索之 Elasticsearch

https://hacpai.com/article/1403514935887 全文搜索之 Elasticsearch 概述 Elasticsearch (ES)是一个基于 Lucene 的开源搜索引擎,它不但稳定、可靠、快速,而且也具有良好的水平扩展能力...

17099933344 ⋅ 2017/08/01 ⋅ 0

Spark数据挖掘-基于 LSA 隐层语义分析理解APP描述信息(2)

Spark数据挖掘-基于 LSA 隐层语义分析理解APP描述信息(2) 前一篇:Spark数据挖掘-基于 LSA 隐层语义分析理解APP描述信息(1) 1 前言 Spark 通过调用 RowMatrix 的 computeSVD 方法会得到三个重...

clebeg ⋅ 2015/11/22 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

如何优雅的编程——C语言界面的一点小建议

我们鼓励在编程时应有清晰的哲学思维,而不是给予硬性规则。我并不希望你们能认可所有的东西,因为它们只是观点,观点会随着时间的变化而变化。可是,如果不是直到现在把它们写在纸上,长久以...

柳猫 ⋅ 38分钟前 ⋅ 0

从零手写 IOC容器

概述 IOC (Inversion of Control) 控制反转。熟悉Spring的应该都知道。那么具体是怎么实现的呢?下面我们通过一个例子说明。 1. Component注解定义 package cn.com.qunar.annotation;impo...

轨迹_ ⋅ 38分钟前 ⋅ 0

系统健康检查利器-Spring Boot-Actuator

前言 实例由于出现故障、部署或自动缩放的情况,会进行持续启动、重新启动或停止操作。它可能导致它们暂时或永久不可用。为避免问题,您的负载均衡器应该从路由中跳过不健康的实例,因为它们...

harries ⋅ 40分钟前 ⋅ 0

手把手教你搭建vue-cli脚手架-详细步骤图文解析[vue入门]

写在前面: 使用 vue-cli 可以快速创建 vue 项目,vue-cli很好用,但是在最初搭建环境安装vue-cli及相关内容的时候,对一些人来说是很头疼的一件事情,本人在搭建vue-cli的项目环境的时候也是...

韦姣敏 ⋅ 50分钟前 ⋅ 0

12c rman中输入sql命令

12c之前版本,要在rman中执行sql语句,必须使用sql "alter system switch logfile"; 而在12c版本中,可以支持大量的sql语句了: 比如: C:\Users\zhengquan>rman target / 恢复管理器: Release 1...

tututu_jiang ⋅ 今天 ⋅ 0

Nginx的https配置记录以及http强制跳转到https的方法梳理

Nginx的https配置记录以及http强制跳转到https的方法梳理 一、Nginx安装(略) 安装的时候需要注意加上 --with-httpsslmodule,因为httpsslmodule不属于Nginx的基本模块。 Nginx安装方法: ...

Yomut ⋅ 今天 ⋅ 0

SpringCloud Feign 传递复杂参数对象需要注意的地方

1.传递复杂参数对象需要用Post,另外需要注意,Feign不支持使用GetMapping 和PostMapping @RequestMapping(value="user/save",method=RequestMethod.POST) 2.在传递的过程中,复杂对象使用...

@林文龙 ⋅ 今天 ⋅ 0

如何显示 word 左侧目录大纲

打开word说明文档,如下图,我们发现左侧根本就没有目录,给我们带来很大的阅读障碍 2 在word文档的头部菜单栏中,切换到”视图“选项卡 3 然后勾选“导航窗格”选项 4 我们会惊奇的发现左侧...

二营长意大利炮 ⋅ 今天 ⋅ 0

智能合约编程语言Solidity之线上开发工具

工具地址:https://ethereum.github.io/browser-solidity/ 实例实验: 1.创建hello.sol文件 2.调试输出结果

硅谷课堂 ⋅ 今天 ⋅ 0

ffmpeg 视频格式转换

转 Mp4 格式 #> ffmpeg -i input.avi -c:v libx264 output.mp4#> ffmpeg -i input.avi -c:v libx264 -strict -2 output.mp4#> ffmpeg -i input.avi -c:v libx264 -strict -2 -s 1......

Contac ⋅ 今天 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部