文档章节

文本挖掘与情感极性分析

行知知行
 行知知行
发布于 2016/10/01 08:08
字数 341
阅读 458
收藏 4

一直对量化投资感兴趣,看到一篇关于《基于copula理论的金融风险相依结构模型及应用》感觉很有趣,准备动手写个类似的工具。一路摸索选择了以下工具:

爬虫 crawler4j,

新闻正文提取用了WebCollector-2.31.jar 的api 

分词摘要提取用了ansj_seg,

word2vec 相关度分析

lingpipe-4.1.0.jar 情感分析

数据存储选择了elasticsearch,neo4j

展现 echart 

"news": {

  • "properties": {
    • "summary": {//摘要
      • "type": "string"
      },
    • "id": {
      • "type": "long"
      },
    • "content": {//正文
      • "type": "string"
      },
    • "title": {//标题
      • "type": "string"
      },
    • "keywords": {//关键字
      • "type": "string"
      },
    • "feedurl": {//种子网站
      • "type": "string"
      },
    • "publishdate": {//发布时间
      • "format": "strict_date_optional_time||epoch_millis",
      • "type": "date"
      },
    • "url": {//新闻网址
      • "type": "string"
      }
    }

1、用tushare下载了所有股票代码和名称,在搜狗字典中下载了股票简称和股市情绪字典,常用的情绪字典,处理后加入ansj_seg的自定义用户字典

2、用爬虫在新浪财经上爬取了5万条新闻作为语料,word2vec训练,得到常用金融词汇的相关词

3、情感分析准备用两种方式实现:

一、训练lingpipe模型

二、情感字典的方式,每篇文章分词写入neo4j后,结合情感字典进行分析,然后判断正文所有句子的极性,摘要的极性,最后得出文本的极性

© 著作权归作者所有

共有 人打赏支持
行知知行
粉丝 1
博文 1
码字总数 341
作品 0
杭州
后端工程师
私信 提问
【文智背后的奥秘】系列篇——情感分类

版权声明:本文由文智原创文章,转载请注明出处: 文章原文链接:https://www.qcloud.com/community/article/92 来源:腾云阁 https://www.qcloud.com/community 情感分类是对带有感情色彩的主...

偶素浅小浅
2016/11/03
20
0
基于LingPipe的文本倾向性分析--LingPipe学习笔记

文本倾向性分析 文本倾向性分析(情感分析 )是将用户的观点分为“正面”和“负面”,有时候会多一个“中性”。文本倾向性分析一个比较直观的应用就是追踪用户对于一个事物的观点和偏好,比如...

长平狐
2013/11/25
4.6K
1
文本挖掘与分析第五周学习笔记3--意见挖掘和情感分析

知识图谱定位: 1.情感分析的动机 1.主观与客观的情绪 两种方式:摄影记录,文本采集。 文本比摄影更具有信息优势,由于可以借助办公机会。 2.观点是什么? 观点:常等同于主观声明,代表一个...

weixin_40962955
2018/02/10
0
0
第七届全国社会媒体处理大会八月哈尔滨召开,早鸟优惠即将截止

由中国中文信息学会社会媒体处理专委会主办、哈尔滨工业大学承办的第七届全国社会媒体处理大会(SMP2018)将于 2018 年 8 月 2-4 日在哈尔滨召开啦。目前购票注册即享早鸟优惠,7 月 10 日将...

思颖
2018/07/09
0
0
SMP 2018 八大论坛议程出炉,最后一周倒计时

由中国中文信息学会社会媒体处理专委会主办、哈尔滨工业大学承办的第七届全国社会媒体处理大会(SMP 2018)将于 2018 年 8 月 2 日- 4 日在哈尔滨召开。雷锋网作为战略合作媒体将带来专题报道...

思颖
2018/07/25
0
0

没有更多内容

加载失败,请刷新页面

加载更多

centos7重置密码、单用户模式、救援模式、ls命令、chmod命令

在工作当中如果我们错误的配置了文件使服务器不能正常启动或者忘记密码不能登录系统,如何解决这些问题呢?重装系统是可以实现的,但是往往不能轻易重装系统的,下面用忘记密码作为例子讲解如...

李超小牛子
今天
1
0
Python如何开发桌面应用程序?Python基础教程,第十三讲,图形界面

当使用桌面应用程序的时候,有没有那么一瞬间,想学习一下桌面应用程序开发?行业内专业的桌面应用程序开发一般是C++,C#来做,Java开发的也有,但是比较少。本节课会介绍Python的GUI(图形用...

程序员补给栈
今天
5
0
kafka在的使用

一、基本概念 介绍 Kafka是一个分布式的、可分区的、可复制的消息系统。它提供了普通消息系统的功能,但具有自己独特的设计。 这个独特的设计是什么样的呢? 首先让我们看几个基本的消息系统...

狼王黄师傅
今天
3
0
Android JNI总结

0x01 JNI介绍 JNI是Java Native Interface的缩写,JNI不是Android专有的东西,它是从Java继承而来,但是在Android中,JNI的作用和重要性大大增强。 JNI在Android中起着连接Java和C/C++层的作...

天王盖地虎626
昨天
3
0
大数据教程(11.8)Hive1.2.2简介&初体验

上一篇文章分析了Hive1.2.2的安装,本节博主将分享Hive的体验&Hive服务端和客户端的使用方法。 一、Hive与hadoop直接的关系 Hive利用HDFS存储数据,利用MapReduce查询数据。 二、Hive与传统数...

em_aaron
昨天
4
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部