文档章节

文本数据分析神器—— IBM BigInsights Text Analytics

勿忘初心321
 勿忘初心321
发布于 2016/08/30 10:48
字数 1775
阅读 47
收藏 0

文本数据分析的价值

文本数据在我们的生活中无处不在:在微信朋友圈、微博中发表的感想;在论坛上发表的评价商品的帖子;由应用后台自动生成的机器日志等。这类数据本身包含了大量有用的信息,但由于文本表达方式可以很灵活,在不需要严格遵循语法的情况下也能准确表达信息。比如下图中表达人物年龄就有三种不同的说法。

例子中,关于年龄最重要的信息是姓名和岁数,图中右侧的的结构化数据才是表达这些核心信息、应用可以处理的主要形式。怎样把非结构化文本数据转换成可以准确表达信息的结构化数据是文本数据分析的一大难题。 

文本数据分析的办法

通常实现文本数据分析主要有两种模式:基于语法分析的模式,和基于语义关联的模式(完全抛开语法,通过文字的上下文关联进行分析)。 

基于语法的分析需要根据语言语法,将文本数据拆分成语法要素,如主谓宾等,再根据语法和语义规则生成目标信息,这种方式适用与文字内容比较规范的场景。

基于语义关联的模式,则是大量采用分词、字典等综合技术对文本数据进行标记(打标签),再根据特定规则或组合生成最终信息,其实现方式大致包括如下步骤:

常用的文本分析工具:

目前有很多工具可用于文本数据分析,常见的几种及其特点如下:

Pig: 包含高层语法的数据处理工具,便于编程和扩展,底层利用MapReduce进行数据并行处理。

JAQL:针对JOSN数据的数据处理工具,非常适合于处理JOSN数据。

AQL:一种标记性的文本数据处理工具,语法类似于SQL,容易上手,内置多种数据抽取器。

Python Natural Language Toolkit:Python提供的文本分析工具,可进行词性标注,句法分析,关键词提取,文本分类,情感分析等。

BigInsights中的文本数据分析工具: IBM企业级大数据产品BigInsights中集成了AQL进行文本分析,在此之上开发了图形化文本分析工具Text Analytics,为使用者提供了极大的便利。

AQL介绍:

AQL框架中对文本数据进行处理要经过三个主要步骤:

1. 数据打标签:使用字典、正则表达式等技术,把要分析的文本数据进行标签处理,这一步是通过定义各种数据抽取器来实现的。

2. 按规则生成数据:将打好标签后的数据进行分片、分组、定义关联规则等,并根据这些规则生成候选的数据列表。

3. 数据合并和过滤:将候选数据进行最终的处理,如将重复数据合并、筛选和过滤等,形成最终的结果。

AQL数据处理过程如下图所示:

BigInsights

使用AQL处理数据,需要学习AQL语法、熟悉新的环境,最重要的是还需要通过写代码来完成各种文本分析任务,因此使用AQL处理数据其实并不简单。下图展示了要从文本中提取数字,需要编写的一段AQL代码:

BigInsights

Text Analytics工具介绍:

IBM基于AQL开发了全图形化界面的文本分析工具Text Analytics,让分析人员不需要编写底层代码,而是使用图形化界面工具方便快捷地完成文本数据分析任务,极大的拔高了平台的文本数据分析能力。

Text Analytics工具界面与Eclipse类似,整个工具分为如下几个区域:

1. 项目管理区:可以通过不同项目实现对不同文本分析任务的划分。

2. 文档浏览区:显示正在处理的文本数据文档,处理的结果通过不同背景颜色标记出不同标签的内容。

3. 画布区域:在该区域中通过拖拽、鼠标操作完成文本数据处理规则的创建和修改。

4. 属性区域:显示当前选中对象的属性,可以设置不同的属性值。

5. 结果区域:显示根据当前文本处理规则处理之后的结果。

BigInsights

通过Text Analytics进行文本数据分析,所有的工作都是在该界面完成,用户不需要关心具体的AQL细节和代码,也不用关心后台的处理作业,Text Analytics自动将文本处理规则生成AQL并提交作业到Hadoop集群中完成数据处理。

下面的简单示例,演示了如何从纯文本的财报数据中提取出盈利数字。

三步轻松搞定文本分析

步骤1:导入数据

新建项目后,单击项目区域中的加号按钮,可添加文本数据源。工具支持从本地文件系统或HDFS中添加文件,支持.zip, .tar, .tgz, .gz等多种格式的数据。

BigInsights

步骤2:编辑文本数据规则

根据数据处理的需要,从“Extractor”菜单中拖拉出需要的抽取器至画布区中,并定义属性和抽取器中的规则。

本例中我们仅仅抽取简单的财务数据,因此只需要将字符"$",数字抽取器Number和货币单位Currency三个抽取器拼接即可,如下图所示:

BigInsights

若要抽取包含部门名称的盈利数据,需要定义如下规则:

BigInsights

步骤3:运行和结果导出

点击画布区中的运行按钮,文本分析结果会直接显示在结果列表中,可以将结果导出处理和使用。

BigInsights

另外运行之后,在文档区域还根据不同规则命中的结果,显示为不同背景色的文字,方便检查。

BigInsights

总结:

BigInsights中的Text Analytics工具通过全图形化界面实现零编程的文本分析,并通过与Hadoop的集成扩展了文本处理的应用范围,可以帮助企业客户快速实现多种文本数据分析应用,例如对互联网文本数据分析,机器日志分析等。

Text Analytics的文本分析结果,可以进行深入加工和分析,例如可以在Cognos中通过图表展现,也可以做为SPSS的分析数据源使用。更多细节请参考慧都大数据。

更多大数据与分析相关行业资讯、解决方案、案例、教程等请点击查看>>>

详情请咨询在线客服

客服热线:023-66090381

© 著作权归作者所有

勿忘初心321
粉丝 17
博文 105
码字总数 180970
作品 0
江北
私信 提问
2016 | 大数据平台类产品资讯汇总

InfoSphere Streams 平台支持流数据的实时处理,支持不断更新持续查询的结果,可在移动的数据流中检测洞察。 InfoSphere Streams——实时大数据分析平台 Streams V4.2新特性:支持使用 Pyth...

勿忘初心321
2016/11/25
23
0
收藏 | 100+篇大数据学习资讯,带你玩转大数据分析!

深度解析如何挑选适合自己的Hadoop平台 什么是Hadoop,怎样学习Hadoop 分布式文件系统HDFS解析 Hadoop开发人员基础课程之初识MapReduce HBase基础知识,面向列的实时分布式数据库 完全分布式...

勿忘初心321
2016/11/22
45
0
InfoSphere Streams——实时大数据分析平台

了解 InfoSphere Streams,它是 IBM 大数据平台的一部分。InfoSphere Streams 解决了针对能够实时处理生成的海量流数据的平台和架构的一种迫切需求。了解该产品的设计目标,它适用于哪些时机...

勿忘初心321
2016/10/13
84
0
Big Data Strategy & Big SQL

12月8日,IBM软件工程师胡泽远老师,在DBA+社群DB2用户群进行了一次主题为“Big Data Strategy & Big SQL”的线上分享。小编特别整理出其中精华内容,供大家学习交流。同时,也非常感谢胡泽远...

胡泽远
2015/12/10
0
0
BigInsights -- 基于 Hadoop 的大数据分析平台

本文针对 IBM 最新开发的数据分析平台进行概要介绍并对其应用进行指导说明。随着信息技术应用范围的不断扩展,对数据进行挖掘分析的需求日益增加,但是信息量的不断增大及其应用构建的复杂性...

zoujiajun33
2016/10/08
31
0

没有更多内容

加载失败,请刷新页面

加载更多

sync.Mutex 互斥锁

说明: 互斥锁用来保证在任一时刻,只能有一个例程访问某对象。Mutex 的初始值为解锁状态。Mutex 通常作为其它结构体的匿名字段使用,使该结构体具有 Lock 和 Unlock 方法。Mutex 可...

李琼涛
4分钟前
1
0
自建redis笔记

自建redis笔记 最近在linux安装了一下redis,特做一些笔记! 本文先单节点启动redis,然后再进行持久化配置,在次基础上,再分享搭建主从模式的配置以及Sentinel 哨兵模式及集群的搭建 单节点...

北极之北
7分钟前
2
0
扛住阿里双十一高并发流量,Sentinel是怎么做到的?

Sentinel 承接了阿里巴巴近 10 年的双十一大促流量的核心场景 本文介绍阿里开源限流熔断方案Sentinel功能、原理、架构、快速入门以及相关框架比较 基本介绍 1 名词解释 服务限流 :当系统资源...

分布式系统架构
9分钟前
2
0
事假杨晨龙(Z16021)月薪请假单

svn co URL --username xxx-- password yyy ./

桃花飞舞
32分钟前
3
0
当Activity关闭后,网络请求回调的处理

当我们在使用网络请求的时候,一般都是通过回调来获取请求到的数据。对于网络请求的回调需要注意的几个点 比如我们的回调在Activity中处理数据,当我们把Activity关闭后,如果获取到数据时,...

shzwork
33分钟前
2
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部