文档章节

文本挖掘与情感极性分析

行知知行
 行知知行
发布于 2016/10/01 08:08
字数 341
阅读 441
收藏 4

一直对量化投资感兴趣,看到一篇关于《基于copula理论的金融风险相依结构模型及应用》感觉很有趣,准备动手写个类似的工具。一路摸索选择了以下工具:

爬虫 crawler4j,

新闻正文提取用了WebCollector-2.31.jar 的api 

分词摘要提取用了ansj_seg,

word2vec 相关度分析

lingpipe-4.1.0.jar 情感分析

数据存储选择了elasticsearch,neo4j

展现 echart 

"news": {

  • "properties": {
    • "summary": {//摘要
      • "type": "string"
      },
    • "id": {
      • "type": "long"
      },
    • "content": {//正文
      • "type": "string"
      },
    • "title": {//标题
      • "type": "string"
      },
    • "keywords": {//关键字
      • "type": "string"
      },
    • "feedurl": {//种子网站
      • "type": "string"
      },
    • "publishdate": {//发布时间
      • "format": "strict_date_optional_time||epoch_millis",
      • "type": "date"
      },
    • "url": {//新闻网址
      • "type": "string"
      }
    }

1、用tushare下载了所有股票代码和名称,在搜狗字典中下载了股票简称和股市情绪字典,常用的情绪字典,处理后加入ansj_seg的自定义用户字典

2、用爬虫在新浪财经上爬取了5万条新闻作为语料,word2vec训练,得到常用金融词汇的相关词

3、情感分析准备用两种方式实现:

一、训练lingpipe模型

二、情感字典的方式,每篇文章分词写入neo4j后,结合情感字典进行分析,然后判断正文所有句子的极性,摘要的极性,最后得出文本的极性

© 著作权归作者所有

共有 人打赏支持
行知知行
粉丝 1
博文 1
码字总数 341
作品 0
杭州
后端工程师
私信 提问
【文智背后的奥秘】系列篇——情感分类

版权声明:本文由文智原创文章,转载请注明出处: 文章原文链接:https://www.qcloud.com/community/article/92 来源:腾云阁 https://www.qcloud.com/community 情感分类是对带有感情色彩的主...

偶素浅小浅
2016/11/03
20
0
基于LingPipe的文本倾向性分析--LingPipe学习笔记

文本倾向性分析 文本倾向性分析(情感分析 )是将用户的观点分为“正面”和“负面”,有时候会多一个“中性”。文本倾向性分析一个比较直观的应用就是追踪用户对于一个事物的观点和偏好,比如...

长平狐
2013/11/25
4.4K
1
文本挖掘与分析第五周学习笔记3--意见挖掘和情感分析

知识图谱定位: 1.情感分析的动机 1.主观与客观的情绪 两种方式:摄影记录,文本采集。 文本比摄影更具有信息优势,由于可以借助办公机会。 2.观点是什么? 观点:常等同于主观声明,代表一个...

weixin_40962955
02/10
0
0
第七届全国社会媒体处理大会八月哈尔滨召开,早鸟优惠即将截止

由中国中文信息学会社会媒体处理专委会主办、哈尔滨工业大学承办的第七届全国社会媒体处理大会(SMP2018)将于 2018 年 8 月 2-4 日在哈尔滨召开啦。目前购票注册即享早鸟优惠,7 月 10 日将...

思颖
07/09
0
0
SMP 2018 八大论坛议程出炉,最后一周倒计时

由中国中文信息学会社会媒体处理专委会主办、哈尔滨工业大学承办的第七届全国社会媒体处理大会(SMP 2018)将于 2018 年 8 月 2 日- 4 日在哈尔滨召开。雷锋网作为战略合作媒体将带来专题报道...

思颖
07/25
0
0

没有更多内容

加载失败,请刷新页面

加载更多

CentOS 安装PHP5和PHP7

安装PHP5 下载解压二进制包 [root@test-a src]# cd /usr/local/src/[root@test-a src]# wget http://cn2.php.net/distributions/php-5.6.32.tar.bz2[root@test-a src]# tar jxvf php-5.6......

野雪球
今天
3
0
windows上类似dnsmasq的软件Dual DHCP DNS Server

官网地址:http://dhcp-dns-server.sourceforge.net/官网定向的下载地址:https://sourceforge.net/projects/dhcp-dns-server/files/ 设置参考地址:http://blog.51cto.com/zhukeqiang/18264......

xueyuse0012
今天
3
0
LinkedHashMap源码解析

前言 HashMap中的元素时无序的,也就是说遍历HashMap的时候,顺序和放入的顺序是不一样的。 如果需要有序的Map,就可以采用LinkedHashMap. LinkedHashMap通过维护一个包含所有元素的双向链表,...

grace_233
今天
3
0
初识flask

文档 0.10.1版本 http://www.pythondoc.com/flask/index.html 1.0.2版本 https://dormousehole.readthedocs.io/en/latest/ 安装flask $ pip3 install flaskCollecting flask Downloading......

yimingkeji
昨天
5
0
Akka系统《sixteen》译

Actor是一个封装状态(state)和行为(behavior)的对象,它们只通过交换消息通信(放入收件人邮箱的邮件)。从某种意义上说,Actor是最严格的面向对象编程形式,但它更适合将他们视为人:在与Act...

woshixin
昨天
3
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部