文档章节

腾讯Dreamwriter:自动化新闻发展之路

aibati2008
 aibati2008
发布于 2017/06/16 17:24
字数 4445
阅读 70
收藏 0

一. Dreamwriter产生:中国第一家

1. 机器人新闻的产生背景:

机器人新闻的产生背景

2. 机器人新闻的发展历程:
2001
谷歌实现个性化新闻推荐,开创了用机器选编新闻的先河
2006
美国汤姆森公司用机器人记者撰写经济和金融方面的新闻
2008
路透社的Open Calais在校对界大显身手
2011
Narrative Science公司机器人用算法把数据转化成财经和房地产报道
2012
《华盛顿邮报》新闻核查机器人Truth Teller
2013
纽约公共广播的数据新闻团队制作土温传感器,准确报道了美国东岸蝉的回迁
2014
AI公司的机器人Wordsmith针对读者生产定制版内容
2014.3
《洛杉矶时报》机器人Quakebot在地震发生三分钟后自动生成和发布了报道。除了灾难新闻,《洛杉矶时报》还开发出快速发布犯罪新闻的机器人
2014.4
《卫报》#Open001机器人生产出靠算法编辑的纸质报纸
2014.7
美联社全面利用机器人Wordsmith写作,仅需0.3秒就可以撰写、发布上市公司盈利报道,还能定制多种语言风格
2015
法国《世界报》和Syllabs公司合作,用机器人记者报道了选举活动
2015.8
《纽约时报》的机器人编辑Blossom每天会从300多篇文章中挑出“潜力股”,推荐给编辑。其平均点击量是普通文章的38倍

2015年9月10日,腾讯财经推出了国内第一篇由Dreamwriter撰写的“机器人新闻”
2015.11
新华社推出“快笔小新”, 从事体育和经济信息报道
2016.5
阿里巴巴与第一财经联合推出“DT稿王”,其写稿“多、快、好”
2016.8
《今日头条》推出Xiaomingbot, 实时撰写里约奥运会新闻稿件
2016.8
《华盛顿邮报》采用写稿软件Heliograf报道里约奥运会,几秒钟即可生成并发布一条Twitter新闻

新闻机器人分类 
选题、写稿、编辑校对、事实核查
写稿领域
财经、体育、灾难、犯罪、选举
发展趋势
时间更快、定制化、辐射纸质报纸

3. 写稿机器人:

腾讯为什么发展比国外晚、且局限在写稿领域?

“国内新闻机器人本身发起就比国外晚,而国外的媒体更愿意和技术结合。” -刘康(Dreamwriter项目负责人、腾讯财经主编)

在国内,腾讯为什么首先研发出写稿机器人?

“首先是因为腾讯既是一家互联网公司又有自己的媒体业务,写作是媒体的,技术开发是互联网公司的。其次,腾讯的企业文化就是鼓励创新和包容创新。在QQ之后,腾讯还能自我否定推出微信。此外,腾讯有许多创业孵化项目,为创新提供人员和资金。” -刘康、郭峰(Dreamwriter项目成员、腾讯财经频道编委)

二.Dreamwriter的生产流程

Dreamwriter生产流程

Dreamwriter进行写作的整个流程主要经历以上五个环节:数据库的建立、机器对数据库的学习、就具体项目进行写作、内容审核、分发。

通俗来说,即是腾讯要先通过购买或自己创建数据库,然后让Dreamwriter机器对数据库内的各项数据进行学习,生成相对应的写作手法,全部学习完之后便可以进行与数据库相关联的新闻事件的报道写作,写作完成后经过审核环节,最后通过腾讯的内容发布平台到达用户端。这个过程中有几个值得我们关注的:

1.数据库:Dreamwriter写作的基石

机器人写作的重要前提是数据库的购买和建立。没有数据库,机器也无法自动量化生成生动的文章。目前,腾讯已经购买了大量的国内外数据库。例如从15-16赛季开始,腾讯买断了五年NBA在中国大陆市场新媒体的独播权,同时采购了NBA的全套数据。据刘康介绍,购买NBA的数据是因为NBA的数据最详实(球赛的每一小节的数据都能实时传送过来)。数据越详实、“颗粒”越细致就越适合机器抓取生成文章。另外,除了大量购买外来数据库,腾讯公司自身也有丰富的数据库资源,比如腾讯开发的股市行情APP“自选股”,本身就是一个股市、股民信息的数据库。

2.机器学习:写作能力的培养过程

机器的写作能力不是天生就有的。有了某一项目的数据库,机器就要进入最关键的下一步“机器学习”。所谓机器学习,即是专门的技术人员通过算法设计和数据分析技术让Dreamwriter去理解数据库。这种理解不只是对数据本身的理解,还要理解每一项数据所对应的写作模板。因此,这也要求技术人员不断丰富写作模板。

采访中,刘康举了一个例子:“体育新闻报道要求欣赏到其中的细节,因此Dreamwriter要把每一个点都打得很‘碎’,最后‘组合’起来。比如说报道奥运会的跳水比赛,这是Dreamwriter表达最生动的一个范例。比赛中,每一个运动员都一套专业得分,包含了走板、空中姿态、入水水花效果等。在Dreamwriter学习过程中,它把每一步的得分都打散了,在数据库里随意组合抓取,同时综合赛事本身的规则,最终把这些分数还原成一套表述。”刘康介绍,目前Dreamwriter还拥有一套“连接词数据库”,因此在写作时形成了一套自己的章法,几乎相当于人工写作。

机器学习的过程并不是一蹴而就,学习的时间取决于项目的大小。类似于NBA这样的体育赛事,大概需要机器学习一个多月的时间,并且这样的学习是没有终点的。

3.写作

刘康表示“Dreamwriter没有采写新闻,数据库都是公开的,只是编辑整理一下。”“其中,体育和财经比较适合应用自动化写作。突发性社会新闻比较难以预期,而财经方面什么时候发财报,什么时候出GDP数据,都有很强的预期性。这跟体育有很大相似性,开球和结尾时间是一定的,各种球员的数据也基本完整。”

Dreamwriter根据财经报道和体育报道的不同特点开发了双系统平台。因为财经有自己的表达方式和计算模型,而体育偏向于深度表达和赛事报道。两个体系不一样,因此针对两个平台开发了不同的系统。在表达清楚新闻内容的同时,针对用户的不同喜好,还推出精简版、民生版和研判版等不同风格的稿件来满足用户需求。

4.有待完善的后期审核与分发环节

大多数互联网信息的发布都会经过一道审核的过程,不同媒体的审核机制不同。不过,目前Dreamwriter团队并无较系统的审核机制,甚至基本不涉及对其内容进行发布前审核的工作。进行此项工作的是腾讯的风控团队,他们负责对所有腾讯资讯平台上的内容进行政治性把关、事实性和合法性核查,并不专门对Dreamwriter的文本本身进行审核。

另外,分发环节也不在Dreamwriter团队工作内容中,现由腾讯专门的分发团队在负责。

三.Dreamwriter的发展趋势

一年时间,Dreamwriter从1.0发展到 5.0。其中,每一版都会加入一项复杂的技术。而每一次的技术迭代都会给内容生产带来改变。

除了通过技术实现功能上的创新,像Dreamwriter这样的机器人写手还可进一步开拓互联网信息市场:

一是可以提供互联网下UGC的新闻信息服务。机器人如果可以从微博、微信等UGC平台上获取新闻素材进行自动写稿,将有助于编辑记者很快发现热点。

二是可以利用语音技术深入新闻信息稿件播报等领域。

三是创新性写作。未来的新闻机器人或计划把来自于旗下人工智能软件的新闻内容,无缝融入到人力记者制作的内容之中,让读者无法分辨到底是由记者采写,还是机器人所写。

四是读者细分管理。新闻机器人通过对用户阅读习惯、点击率等数据的追踪与分析,可以准确地描述出客户需求,为读者定制个性化的内容服务。此外,还可以通过智能对话系统与用户进行交互,从而完成读者的细分和内容的精准推送。

五是满足用户对长尾内容和个性化内容的需求。新闻机器人可有效提升新闻产出的效率,新闻生产的“量变”可带来新闻服务的“质变”,满足了受众对新闻资讯的“长尾”需求。

四.Dreamwriter引发的思考

Dreamwriter引发的思考

1.标准化与个性化

从Dreamwriter和其他机器人写作案例可以看出,机器人最大的优势在于高效。并且这种量变还带来了新闻的“质变”,满足了一些受众对于新闻的长尾需求。然而,工业化生产也是一把“双刃剑”,建立在分工和专业基础上的标准化生产,一方面提高了效率,另一方面也带来了内容产品的模式化、刻板化和单一化弊病。机器人撰写的作品虽然精准,但总体来看还是缺乏“人情味”,并且在题材、体裁上目前还很局限,缺少人为创作的灵光闪现和艺术之美。虽然目前腾讯Dreamwriter在个性化写作上有不少成功的探索,但是技术能够发展到什么程度不可预知。机器人写作的意义到底在于什么,是标准化带来的高效还是个性化带来的定制?这之间需要一个平衡。

2.是否解放了人力

刘康在采访中表示,Dreamwriter的意义便是解放了一大部分记者编辑的人力,让他们不再花时间盯公司财报和证监会的网站,但研究者提出的问题却是,即使在内容生产环节解放了人力,在后期的审核、编辑环节人力的分量是不是并未减少甚至提高了呢?刘康给我们的答案是,后期审核很麻烦,他们虽然有一套机制,但Dreamwriter团队基本不会插手这方面的工作,同时也不会对机器人的稿件进行加工润色。但是根据一些国外机器人写作的经验我们发现,有的媒体会对机器人写作的产品进行人工审核或编辑,例如美联社。哥伦比亚大学新闻学院导师Tom Kent曾在文章中说:“机器和数据出错时不可避免的,但一旦出错可能就会导致成千上万的新闻稿件发生错误,因此在进行写作之前需要彻底对其进行审查,在稿件生成之后,也需要编辑在发布之前对其进行核查。即是说,我们所看到的机器人写出的作品都或多或少带有人力审查的痕迹。”

3.写作伦理问题

一旦涉及数据库,就会产生伦理问题的争议。Dreamwriter在写作的时候会抓取微博上的网民观点,当问到这会不会涉及网民隐私的时候,刘康表示不会,因为Dreamwriter抓取的网民数据都是网民在公开平台上发布的公开言论,不涉及隐私问题。但除此之外,机器人写作也可能会有其他设计伦理道德的争议,比如随着技术的发展,机器人写作可以向图片新闻、视频新闻发展,但是这类新闻的伦理问题就更复杂了,如何去抓取真实的、不侵犯他人权利、不伤害他人的图片或视频,这个边界目前还没有完善的解决办法。

4.数据库权威性和真实性

刘康表示,官方数据默认是权威的。他们在使用时会有一个权重评级,如果总是不权威,他们会下调权重评级,这是一个动态衡量的过程。

他们还会有备用的数据库。比如里约奥运会的报道,他们会以最快速度抓取原始库,但还有一个自己的备用库,以便核实。

5.人工智能在新闻领域的运用

刘康说,上次有人提出一个概念叫弱人工智能,这是在说实话。现在没有多少真正的AI ,只能说是一个方向。

五.结语

国内的人工智能目前还停留在比较初级的应用阶段,多以财经和体育新闻为主,体裁上基本局限于快讯、短讯和财报。我们距离真正的人工智能的新闻领域应用还有相当距离,正如刘康在访谈中所言,我们现在仍身处“弱人工智能”阶段,未来的AI发展仍有相当程度的可变性。

不论国内还是国外,目前的机器人写作还是对重复性较高的人力劳动的替代,把人力从繁琐的劳动中解放出来,从事具有创新要求和需要发挥想象力的工作,专注于深度挖掘和思考。腾讯财经认为理想的状态是未来每个媒体人可以配备一个机器人助手。不过虽然机器人不会完全取代记者,不可避免的是,它的出现仍会淘汰掉一部分工作,记者们也需要不断适应这个新的工作伙伴,取长补短,为读者提供更精准、快速、也更有人情味的新闻是智能化时代媒体内容生产的发展方向。现阶段人工智能的所有新闻实践背后都离不开人类,无论是简单的模板内容填充还是海量的数据抓取、新闻核查还是聊天机器人互动,其背后都需要人类设计智能系统和人工训练机器人。

不同于国外的媒体引领创新趋势,我国的机器人写作乃至AI项目更多的是在腾讯、百度、今日头条等互联网科技公司产品,而国内的大多数媒体在科技创新方面发展起步较晚,如何缩小和国外的创新差距是中国媒体今后将会面临的重要命题。

本文摘选自人大新闻系新闻编辑课程调研报告;研究小组成员:陈钟昊 崔灿 王睿路 张研

调研目的:
研究者通过对腾讯新闻机器人Dreamwriter的运行原理、新闻生产流程、未来发展趋势等方面的调研,试图把握Dreamwriter进行自动化新闻生产过程中的必备要素,以及每一环节的具体特征,包括其中存在的问题,进而预测我国机器人新闻的未来发展前景,为媒体创新提供参考。

调研方法:
1. 文献资料研究:
梳理有关机器人新闻的国内外相关文献,结合Dreamwriter的具体情况进行分析解读。
2. 访谈法:
对Dreamwriter项目负责人、腾讯财经主编刘康先生和Dreamwriter项目成员、腾讯财经频道编委郭峰先生进行访谈,获取相关一手信息,从访谈中探究Dreamwriter的运作机制。
另外,调研辅之以对部分Dreamwriter撰写的作品进行个案研究。
注:文中引号皆来自小组采访

参考文献:
[1] Aviva Rutkin. Rise of Robot Reporters: When Software Writes the News. New Scientist, Volume 221, Issue 2962: 22.
[2] 刁毅刚, 陈旭管. 采访手记:传媒业融合人工智能,互联网企业行在路上[J]. 中国传媒科技, 2016, 09: 12.
[3] 李骏. 欧美新闻机器人的“尝新”观察[J]. 传媒评论, 2016, 09: 67-68.
[4] 王悦, 支庭荣. 机器人写作对未来新闻生产的深远影响——兼评新华社的“快笔小新”[J].新闻与写作, 2016, (2): 12-14.
[5] 熊立波, 钟盈炯, 林波等. “快笔小新”与机器人写作[J]. 新闻与写作, 2016, (2):10-12.
[6] 徐曼. 国外机器人新闻写手的发展与思考[J]. 中国报业, 2015, 23: 32-34.
[7] 张海霞. 机器人写作时代新闻从业者的应对[J]. 新闻战线, 2016, 21: 110-112.

(来源:RUC新闻坊(微信号rendaxinwenxi))

© 著作权归作者所有

共有 人打赏支持
aibati2008
粉丝 13
博文 84
码字总数 61386
作品 0
成都
技术主管
私信 提问
机器人都会写稿了,这是小编分分钟得下岗的节奏吗?

事实上,目前的人工智能的技术水平有限,利用这一技术只能起到辅助作用,帮助编辑们提高工作效率。 日前,腾讯财经刊登了一则名为《8月CPI涨2% 创12个月新高》的新闻稿件,引起了行业里的热议...

行者武松
03/01
0
0
盘点高端媒体都在用的10大写作机器人!

《华尔街邮报》写稿机器人——Heliograf Heliograf从去年里约奥运会开始撰写一些新闻,主要通过人工智能技术快速生成一些简单的信息作为报道,并且在推特上发布。在之后的应用中,Heliograf...

Giiso编辑
06/01
0
0
人工智能撰写《哈利波特》新篇章:风格怪异,酷似原作者

据外媒The Verge报道,哈利·波特的故事中新增了一个章节,但不是原作者J.K.罗琳写的,而是由人工智能历尽艰辛完成的。 Botnik Studio的工作人员让一个计算机算法工具学习了《哈利波特》的所...

技术小能手
2017/12/15
0
0
剧透 | 成都源创会:腾讯是如何运维 MySQL 的?

转眼间马上要到国庆了,大家应该都很期待吧。同样值得期待的是,国庆长假之后,第53期和第54期的【OSC源创会】就要来啦!!!秉承着放荡不羁爱剧透的优良作风,决定陆续放出一些内容让大家一...

王练
2016/09/28
2.7K
5
走进腾讯,聊运维干货(第一期):海量运维实践大曝光

欢迎大家前往腾讯云社区 ,获取更多腾讯海量技术实践干货哦~ 《走进腾讯,聊运维干货》系列 (1)是由腾讯云主办的互联网运维实践系列技术分享沙龙,将在北京、上海、深圳、广州、厦门、成都...

腾讯云社区
2017/12/12
0
0

没有更多内容

加载失败,请刷新页面

加载更多

2018最新Web前端经典面试试题及答案

javascript: JavaScript中如何检测一个变量是一个String类型?请写出函数实现 typeof(obj) === "string" typeof obj === "string" obj.constructor === String 请用js去除字符串空格? 方法一...

Jack088
8分钟前
0
0
大数据教程(10.1)倒排索引建立

前面博主介绍了sql中join功能的大数据实现,本节将继续为小伙伴们分享倒排索引的建立。 一、需求 在很多项目中,我们需要对我们的文档建立索引(如:论坛帖子);我们需要记录某个词在各个文...

em_aaron
13分钟前
0
0
"errcode": 41001, "errmsg": "access_token missing hint: [w.ILza05728877!]"

Postman获取微信小程序码的时候报错, errcode: 41001, errmsg: access_token missing hint 查看小程序开发api指南,原来access_token是直接当作parameter的(写在url之后),scene参数一定要...

两广总督bogang
13分钟前
1
0
MYSQL索引

索引的作用 索引类似书籍目录,查找数据,先查找目录,定位页码 性能影响 索引能大大减少查询数据时需要扫描的数据量,提高查询速度, 避免排序和使用临时表 将随机I/O变顺序I/O 降低写速度,占用磁...

关元
32分钟前
5
0
撬动世界的支点——《引爆点》读书笔记2900字优秀范文

撬动世界的支点——《引爆点》读书笔记2900字优秀范文: 作者:挽弓如月。因为加入火种协会的读书活动,最近我连续阅读了两本论述流行的大作,格拉德威尔的《引爆点》和乔纳伯杰的《疯传》。...

原创小博客
43分钟前
15
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部