文档章节

机器学习PAI眼中的《人民的名义》

AllenOR灵感
 AllenOR灵感
发布于 2017/09/10 01:14
字数 1063
阅读 2
收藏 0

最近热播的反腐神剧“人民的名义”掀起来一波社会舆论的高潮,这部电视剧之所能得到广泛的关注,除了老戏骨们精湛的演技,整部剧出色的剧本也起到了关键的作用。笔者在平日追剧之余,也尝试通过机器学习算法对人民的名义的部分剧集文本内容进行了文本分析,希望从数据的角度得到一些输入。

本文使用阿里云机器学习PAI,主要针对以下几个方面进行了实验:

分词以及词频统计

每一章的关键词提取

每一章的文本摘要

每一章文本之间的相似度分析

实验流程以及数据可以在阿里云机器学习PAI的社区直接使用,只要点击“去PAI平台创建”按钮即可在自己的项目下生成实验。社区部分截图:


社区地址:人民的名义分析-云栖社区-阿里云

二、数据集介绍

数据源:本文数据为人民的名义部分剧集文本,一共分成1-9个章节。

具体字段如下:


数据截图:


三、数据探索流程

首先,实验流程图:


1.分词以及停用词

分词是文本分析的基础,但是在“人民的名义”这样的文本中会有很多特有名词,是分词算法很难区分的。比如“侯亮平”、“沙瑞金”、“大风厂”等,所以我们需要在split word组件中加入一个词库,帮助分词组件可以对人名做正确的分词处理。加入的词库fufeitest.splite_w如下图:


另外,文本中一些“的”、“地”、“得”这样的助词以及各种标点符号也需要去掉,这些词是没有意义的,对文本分析有干扰,这些词可以通过“停用词过滤”组件去除。最终通过分词以及停用词过滤组件操作之后,文本内容被整理成了如下图形态:


2.关键词提取及词频统计

通过“词频统计”组件可以查看每一章中各个词语出现的频率,如图所示,id为1的文章中每个词语出现的次数:


“关键词”提取组件可以返回每个文章中关键的词语以及权重,(如果我们在停用词过滤那里处理的更细致,这部分效果会更好),通过这个结果可以看到每一章的关键人物有哪些,以及他们的权重排名:


3.文本摘要

“文本摘要”组件可以帮助您快速的浏览每一章节的关键内容,返回的是全文最关键的句子,我这里设置的是返回前三关键的句子:


截取的是第9章的摘要内容,如果看过这个剧,通过这个摘要可以大致了解到这是在讲汉东省委关于干部任用的会议的那一集。

4.相似文章分析

通过“Doc2Vec”组件可以将文本文章映射成高维向量化,将文本按照语义变成数学向量,结果如下:


然后可以通过"语义向量距离"组件挖掘出不同文章向量的距离,这里面的隐含关系是文章向量距离越近,那么语义越相近。我们以第9章为例:

第9章与第8章的向量距离最小,言外之意就是这两章的语义相近,这一点也比较容易理解,因为相连的两章在意义上肯定上是有一定的关联性。


四、总结

本文通过对“人民的名义”部分章节文本的分析,帮助大家了解机器学习PAI上面的部分文本算法的用法。如果向更深入的了解相关的内容,欢迎到PAI的社区来讨论,我们会定时组织活动。

社区:云栖社区公众号

产品页:阿里云数加机器学习平台

点击作者姓名查看更多内容:傲海

本文转载自:http://www.jianshu.com/p/67f9b075630f

AllenOR灵感
粉丝 11
博文 2635
码字总数 83001
作品 0
程序员
私信 提问
使用OSS中的数据作为机器学习的训练样本

使用OSS中的数据作为机器学习的训练样本 背景 对象存储服务OSS 阿里云对象存储服务(Object Storage Service,以下简称 OSS),是阿里云提供的海量、安全、低成本、高可靠的云存储服务。 云机...

龙临
2018/04/12
0
0
阿里云发布机器学习平台PAI v3.0

雷锋网(公众号:雷锋网) AI 科技评论按:距机器学习平台 PAI 2.0 发布两年后,阿里巴巴于今早的阿里云峰会上重磅发布 PAI 3.0 版本。 阿里云机器学习平台是构建在阿里云 MaxCompute(原 ODPS...

黄善清
03/22
0
0
图形数据库Neo4j从入门到精通(含Neo4j+D3.js完整实战项目开发)

图形数据库Neo4j从入门到精通(含Neo4j+D3.js完整实战项目开发) 分享网盘地址——https://pan.baidu.com/s/1dFNFTZF 密码: hmge 图数据库是目前大数据领域最火热的方向,Neo4j则是图数据库中...

人气王子333
2017/11/08
0
0
客户说有了PAI-AutoML,一下子可以节约半年开发周期

背景介绍 如果你用过机器学习算法,那一定体验被算法调参支配的恐怖。面对错综复杂的算法参数,算法使用者们往往要花费无尽的黑夜去不断尝试,犹如大海捞针。有的时候加班到深夜,终于找到了...

傲海
2018/08/24
0
0
【机器学习PAI实战】—— 玩转人工智能之综述

模型训练与在线预测服务、推荐算法四部曲、机器学习PAI实战、更多精彩,尽在开发者分会场 【机器学习PAI实战】—— 玩转人工智能之商品价格预测 【机器学习PAI实战】—— 玩转人工智能之你最...

迷你芊宝宝
03/21
12
0

没有更多内容

加载失败,请刷新页面

加载更多

OpenStack 简介和几种安装方式总结

OpenStack :是一个由NASA和Rackspace合作研发并发起的,以Apache许可证授权的自由软件和开放源代码项目。项目目标是提供实施简单、可大规模扩展、丰富、标准统一的云计算管理平台。OpenSta...

小海bug
昨天
5
0
DDD(五)

1、引言 之前学习了解了DDD中实体这一概念,那么接下来需要了解的就是值对象、唯一标识。值对象,值就是数字1、2、3,字符串“1”,“2”,“3”,值时对象的特征,对象是一个事物的具体描述...

MrYuZixian
昨天
6
0
数据库中间件MyCat

什么是MyCat? 查看官网的介绍是这样说的 一个彻底开源的,面向企业应用开发的大数据库集群 支持事务、ACID、可以替代MySQL的加强版数据库 一个可以视为MySQL集群的企业级数据库,用来替代昂贵...

沉浮_
昨天
6
0
解决Mac下VSCode打开zsh乱码

1.乱码问题 iTerm2终端使用Zsh,并且配置Zsh主题,该主题主题需要安装字体来支持箭头效果,在iTerm2中设置这个字体,但是VSCode里这个箭头还是显示乱码。 iTerm2展示如下: VSCode展示如下: 2...

HelloDeveloper
昨天
7
0
常用物流快递单号查询接口种类及对接方法

目前快递查询接口有两种方式可以对接,一是和顺丰、圆通、中通、天天、韵达、德邦这些快递公司一一对接接口,二是和快递鸟这样第三方集成接口一次性对接多家常用快递。第一种耗费时间长,但是...

程序的小猿
昨天
9
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部