文档章节

文本挖掘与情感极性分析

行知知行
 行知知行
发布于 2016/10/01 08:08
字数 341
阅读 1.7K
收藏 4

行业解决方案、产品招募中!想赚钱就来传!>>>

一直对量化投资感兴趣,看到一篇关于《基于copula理论的金融风险相依结构模型及应用》感觉很有趣,准备动手写个类似的工具。一路摸索选择了以下工具:

爬虫 crawler4j,

新闻正文提取用了WebCollector-2.31.jar 的api 

分词摘要提取用了ansj_seg,

word2vec 相关度分析

lingpipe-4.1.0.jar 情感分析

数据存储选择了elasticsearch,neo4j

展现 echart 

"news": {

  • "properties": {
    • "summary": {//摘要
      • "type": "string"
      },
    • "id": {
      • "type": "long"
      },
    • "content": {//正文
      • "type": "string"
      },
    • "title": {//标题
      • "type": "string"
      },
    • "keywords": {//关键字
      • "type": "string"
      },
    • "feedurl": {//种子网站
      • "type": "string"
      },
    • "publishdate": {//发布时间
      • "format": "strict_date_optional_time||epoch_millis",
      • "type": "date"
      },
    • "url": {//新闻网址
      • "type": "string"
      }
    }

1、用tushare下载了所有股票代码和名称,在搜狗字典中下载了股票简称和股市情绪字典,常用的情绪字典,处理后加入ansj_seg的自定义用户字典

2、用爬虫在新浪财经上爬取了5万条新闻作为语料,word2vec训练,得到常用金融词汇的相关词

3、情感分析准备用两种方式实现:

一、训练lingpipe模型

二、情感字典的方式,每篇文章分词写入neo4j后,结合情感字典进行分析,然后判断正文所有句子的极性,摘要的极性,最后得出文本的极性

行知知行
粉丝 1
博文 1
码字总数 341
作品 0
杭州
后端工程师
私信 提问
加载中
请先登录后再评论。
Flappy Bird(安卓版)逆向分析(一)

更改每过一关的增长分数 反编译的步骤就不介绍了,我们直接来看反编译得到的文件夹 方法1:在smali目录下,我们看到org/andengine/,可以知晓游戏是由andengine引擎开发的。打开/res/raw/at...

enimey
2014/03/04
6K
18
浅入浅出Android(003):使用TextView类构造文本控件

基础: TextView是无法供编辑的。 当我们新建一个项目MyTextView时候,默认的布局(/res/layout/activity_main.xml)中已经有了一个TextView: <TextView 运行效果如下: 修改其文本内容...

樂天
2014/03/22
631
1
桌面即时贴软件--GloboNote

GloboNote 是一个桌面记事软件,可帮你创建待办事宜、提醒和其他笔记信息。无限制即时贴的数量,可分组整理,支持搜索,可定制文本的显示格式(字体、颜色和大小),可将某个即时贴始终显示在...

匿名
2013/01/21
6.7K
1
实时分析系统--istatd

istatd是IMVU公司工程师开发的一款优秀的实时分析系统,能够有效地收集,存储和搜索各种分析指标,类似cacti,Graphite,Zabbix等系统。实际上,istatd修改了Graphite的存储后端,重新实现了...

匿名
2013/02/07
2.9K
1
日志分析平台 - Kibana

Kibana 是一个为 Logstash 和 ElasticSearch 提供的日志分析的 Web 接口。可使用它对日志进行高效的搜索、可视化、分析等各种操作。 环境要求: ruby >= 1.8.7 (probably?) bundler logstash...

匿名
2013/02/13
11.5W
1

没有更多内容

加载失败,请刷新页面

加载更多

叮! Q币派送中,快来看看你中奖了吗?

中奖名单新鲜出炉啦! 大家好 为了感谢大家一直以来对我们公众号的关注和支持 D妹来给大家发!奖!品!了! 是哪几位幸运鹅 能把这30Q币收入囊中? 赶紧过来康康吧! 也欢迎各位后续多多分享...

腾讯云DNSPod
今天
24
0
Qt音视频开发5-vlc事件订阅

一、前言 事件订阅可以拿到文件长度、播放进度、播放状态改变等信息,vlc的事件订阅机制封装的比较友好,只需要先创建一个事件管理器,然后逐个订阅自己感兴趣的需要的事件,不感兴趣的可以不...

飞扬青云
44分钟前
18
0
酒精和药物影响下出现交通事故的频率

导读: 在酒精或药物影响下驾驶,已被认为是与发生潜在交通事故和出现严重伤亡结果相关的关键因素[1]。2016年,美国酒驾事故导致10,497人死亡,占当年交通事故死亡总人数的28%,其死亡总人数...

科研菌
昨天
0
0
高可用高并发的 9 种技术架构!

来源:androidchina http://www.androidchina.net/7928.html 1、分层 分层是企业应用系统中最常见的一种架构模式,将系统在横向维度上切分成几个部分,每个部分负责一部分相对简单并比较单一...

Java技术栈
45分钟前
23
0
联盟链要对区块链做减法

当前联盟链平台在公有链的基础上,对共识机制做调整,去掉公有属性,使得准入可控、效率提升,这实际上是对区块链在做减法。但这是否足够呢? 我们在应用中很快发现,联盟链的使用比较受限制...

FISCO-BCOS开源社区
昨天
11
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部