文档章节

文本挖掘与情感极性分析

行知知行
 行知知行
发布于 2016/10/01 08:08
字数 341
阅读 416
收藏 4
点赞 0
评论 0

一直对量化投资感兴趣,看到一篇关于《基于copula理论的金融风险相依结构模型及应用》感觉很有趣,准备动手写个类似的工具。一路摸索选择了以下工具:

爬虫 crawler4j,

新闻正文提取用了WebCollector-2.31.jar 的api 

分词摘要提取用了ansj_seg,

word2vec 相关度分析

lingpipe-4.1.0.jar 情感分析

数据存储选择了elasticsearch,neo4j

展现 echart 

"news": {

  • "properties": {
    • "summary": {//摘要
      • "type": "string"
      },
    • "id": {
      • "type": "long"
      },
    • "content": {//正文
      • "type": "string"
      },
    • "title": {//标题
      • "type": "string"
      },
    • "keywords": {//关键字
      • "type": "string"
      },
    • "feedurl": {//种子网站
      • "type": "string"
      },
    • "publishdate": {//发布时间
      • "format": "strict_date_optional_time||epoch_millis",
      • "type": "date"
      },
    • "url": {//新闻网址
      • "type": "string"
      }
    }

1、用tushare下载了所有股票代码和名称,在搜狗字典中下载了股票简称和股市情绪字典,常用的情绪字典,处理后加入ansj_seg的自定义用户字典

2、用爬虫在新浪财经上爬取了5万条新闻作为语料,word2vec训练,得到常用金融词汇的相关词

3、情感分析准备用两种方式实现:

一、训练lingpipe模型

二、情感字典的方式,每篇文章分词写入neo4j后,结合情感字典进行分析,然后判断正文所有句子的极性,摘要的极性,最后得出文本的极性

© 著作权归作者所有

共有 人打赏支持
行知知行
粉丝 1
博文 1
码字总数 341
作品 0
杭州
后端工程师
【文智背后的奥秘】系列篇——情感分类

版权声明:本文由文智原创文章,转载请注明出处: 文章原文链接:https://www.qcloud.com/community/article/92 来源:腾云阁 https://www.qcloud.com/community 情感分类是对带有感情色彩的主...

偶素浅小浅
2016/11/03
20
0
基于LingPipe的文本倾向性分析--LingPipe学习笔记

文本倾向性分析 文本倾向性分析(情感分析 )是将用户的观点分为“正面”和“负面”,有时候会多一个“中性”。文本倾向性分析一个比较直观的应用就是追踪用户对于一个事物的观点和偏好,比如...

长平狐
2013/11/25
4.4K
1
文本挖掘与分析第五周学习笔记3--意见挖掘和情感分析

知识图谱定位: 1.情感分析的动机 1.主观与客观的情绪 两种方式:摄影记录,文本采集。 文本比摄影更具有信息优势,由于可以借助办公机会。 2.观点是什么? 观点:常等同于主观声明,代表一个...

weixin_40962955
02/10
0
0
第七届全国社会媒体处理大会八月哈尔滨召开,早鸟优惠即将截止

由中国中文信息学会社会媒体处理专委会主办、哈尔滨工业大学承办的第七届全国社会媒体处理大会(SMP2018)将于 2018 年 8 月 2-4 日在哈尔滨召开啦。目前购票注册即享早鸟优惠,7 月 10 日将...

思颖
07/09
0
0
Python和R:学哪个好?

在当下,人工智能的浪潮席卷而来。从AlphaGo、无人驾驶技术、人脸识别、语音对话,到商城推荐系统,金融业的风控,量化运营、用户洞察、企业征信、智能投顾等,人工智能的应用广泛渗透到各行...

个推君
2017/11/28
0
0
【译文】使用文本挖掘技术分析Twitter用户对电影的评价

【译文】使用文本挖掘技术分析Twitter用户对电影的评价 作者 佚名 译者 钱亦欣 引言 使用一些建模分析手段来评价电影的成功已经屡见不鲜,这类预测模型常常使用注入电影制作成本,类型,主演...

上大飞猪钱小莲
2017/05/21
0
0
借助亚马逊S3和RapidMiner应用到文本挖掘

  【IT168 评论】本挖掘典型地运用了机器学习技术,例如聚类,分类,关联规则,和预测建模。这些技术揭示潜在内容中的意义和关系。文本发掘应用于诸如竞争情报,生命科学,客户呼声,媒体和...

it168网站
05/28
0
0
知识图谱论文大合集,这份干货满满的笔记解读值得收藏

动机 远程监督关系抽取方法虽然可以使用知识库对齐文本的方法得到大量标注数据,但是其中噪声太多,影响模型的训练效果。基于 bag 建模比基于句子建模能够减少噪声的影响,但是仍然无法克服 ...

技术小能手
07/17
0
0
知识图谱论文大合集,干货满满的笔记解读

ACL 2018 链接:https://www.paperweekly.site/papers/2108 解读:刘兵,东南大学计算机学院博士,研究方向为机器学习、自然语言处理 动机 远程监督关系抽取方法虽然可以使用知识库对齐文本的...

技术小能手
昨天
0
0
python的中文文本挖掘库snownlp进行购物评论文本情感分析实例

昨晚上发现了snownlp这个库,很开心。先说说我开心的原因。我本科毕业设计做的是文本挖掘,用R语言做的,发现R语言对文本处理特别不友好,没有很多强大的库,特别是针对中文文本的,加上那时...

yyxyyx10
2017/03/16
0
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

CDH的坑之Sqoop导出数据到MySQL

CDH的坑之Sqoop导出数据到MySQL 最近使用Sqoop从Hive导出数据到MySQL中,出现了一系列的问题,下面将这个问题记录一下,避免再度踩坑! 导出语句 sqoop export --connect jdbc:mysql://192....

星汉
9分钟前
0
0
Hyperledger Fabric 客户端开发三

前面两篇文章介绍了Hyperledger Fabric SDK并使用一个实例介绍如何通过SDK和Hyperledger Fabric Blockchain交互, 现在详细分析相关的过程。 首先看 enroll (登录) admin 过程。 'use stric...

十一月不远
10分钟前
0
0
PowerDesigner连接MySQL和逆向工程图

最近想梳理公司项目的表间关系,从项目后台管理系统的操作入手,以及代码的hibernate注解入手,都不算特别尽人意,于是最后还是鼓捣了一下PowerDesigner的逆向工程图,这样更直观一些。 想着...

Oo若离oO
10分钟前
0
0
威胁web应用安全的错误

一般绝大部分的web应用攻击都是没特定目标的大范围漏洞扫描,只有少数攻击确实是为入侵特定目标而进行的针对性尝试。这两种攻击都非常频繁,难以准确检测出来,许多网站的web应用防火墙都无法...

上树的熊
13分钟前
2
0
pypy2 install crypto error

install pycryptodome instead pip install pycryptodome

coord
17分钟前
0
0
Service Mesh所应对的8项挑战

Lori Macvittie 微服务架构是把双刃剑,我们享受它带来的开发速度(development velocity),却也不得不面对服务间通讯带来的复杂性问题。 目前大多数扩展容器化微服务的架构多是基于proxy-b...

好雨云帮
26分钟前
0
0
时间复杂度

1. 维基上的定义 在计算机科学中,算法的时间复杂度是一个函数,它定性描述该算法的运行时间。这是一个代表算法输入值的字符串的长度的函数。时间复杂度常用大O符号表述,不包括这个函数的低...

liuyan_lc
32分钟前
0
0
js中的~符

~是js里的按位取反操作符,~~就是执行两次按位取反,其实就是保持原值,但是注意虽然是原值,但是对布尔型变量执行这个操作,会转化成相应的数值型变量,也就是 ~~true === 1,~~false === 0...

JamesView
33分钟前
0
0
webpack安装

npm install --save-dev webpack-cli

Vincent-Duan
35分钟前
0
0
实时监听EditText内容变化

主要是addTextChangedListener方法的使用 aswerEdittext.addTextChangedListener(new TextWatcher() { //编辑框的内容发生改变之前的回调方法 @Override public void before...

王先森oO
38分钟前
0
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部