文档章节

数据外部性这把“大数据之剑”

灵玖lingjoin
 灵玖lingjoin
发布于 2015/01/21 16:14
字数 2049
阅读 3
收藏 0
点赞 0
评论 0

   “大数据”早已是个大众耳熟能详的概念,但在它的研究者看来,“大数据时代”其实刚刚开始。将大数据概念带入中国人视野的信息专家、《大数据》《数据之巅》的作者涂子沛,近日出任阿里巴巴副总裁,主导数据新商业模式的研究与应用实践,身在大数据现场的他,将为澎湃新闻撰写一系列他对大数据前沿话题的思考。本文是第一篇。


    2007年,微软的工程师阿尔卡斯(Blaise Agueray Arcas)有过一个创举,他利用Flickr网站上的照片重建了一座虚拟的巴黎圣母院大教堂,通过点击,人们可以在网上从不同的角度感受这座教堂,甚至可以放大、细赏其建筑外墙上的一个具体部位,而这些照片,却是成千上万普通人拍摄的,阿尔卡斯在演讲中说,这是“从每个人那里得到数据——从人类对地球的集体视觉记忆中得到数据——然后把它们联结在一起”。


    阿尔卡斯的创举并不是孤例。2015年10月8日,世界多地出现月全食,全球无数台手机对准天空的月亮,随着咔咔声响,成千上万张照片奔涌到云上。这些照片从不同的地点、不同的角度记录了同一个物体,天文研究者已经认识到,如果整合起来,其对研究工作的意义可能比一台超级天文望远镜还要重大。


    这两个例子中的照片,可谓异曲同工。人们之所以拍照,是为了娱乐、分享。但这些照片被整合起来之后,我们很容易发现,它们产生了新的效用。这些效用,远远超出了拍照人最初的目的。这种现象,我称之为“数据的外部性”。


   “外部性”并不是一个新的概念,经济学家在这个领域的研究,已经有上百年的历史。他们发现,一个普通个体为了自身利益而做出的“利己行为”,也可能让其他人或者整个社会受益,并且受益者无须为此支付费用。


    我借用这个概念,想指出的是,数据的作用完全可能超出其最初收集者的想象、也完全可能超越其最初信息系统设计的目的,即同一组数据可以在不同的维度上产生不同的价值和效用,如果我们能不断发现、开拓新的使用维度,数据的能量和价值就将层层放大。


    研究数据的外部性,对我们正在迈进的新经济、数据经济具有非常重要的意义。


    阿里巴巴之所以能够不断成长、扩张,其中的一个重要原因,就是用好了“数据外部性“。由于拥有淘宝、天猫、支付宝、B2B等电商平台,阿里巴巴积聚了大量的商家交易和支付数据。阿里巴巴收集这些数据,一开始仅仅是为了完成网上交易的流水记录。


    2010年开始,阿里巴巴逐渐意识到了这笔记录的潜在价值,现任阿里云总裁胡晓明先生率队开始研究如何利用这些数据,判断商家的资信,从而为其发放贷款。这就是“阿里小贷”的发源,2014年,胡晓明总结说,阿里小贷已经为70多万小微企业提供了贷款,其单笔信贷的成本为2.3元、客户3分钟获贷、不良率低于1%,这些指标都远远低于传统的银行。


    阿里小贷是中国互联网金融领域开拓性的标本项目,也是日后阿里巴巴扩张、拆分出一个新的集团——蚂蚁金服的重要基础,分家不分“数”,蚂蚁金服集团的诸多业务,还必须依赖于阿里集团的数据。在这个成功的基础上,今天的阿里巴巴进而提出“一切数据都要业务化”,就是要把所有已经拥有的数据都用起来,挖掘其外部性,让他们产生新的商业价值。这当然是一个大数据公司应该具备的商业使命。


    类似的例子国外也有。Kabbage是一家成立于2008年的网络贷款公司,其运作机理和阿里小贷类似,为了评估贷款人的信用,Kabbage不仅高效地整合了eBay、Amazon等电子交易平台上的数据,还分析这些企业在物流公司如UPS的配送数据、在PayPal、Square、QuickBook等财务系统的账面流水,以及在社交平台Facebook 、Twitter上与客户互动的数据。就挖掘数据的外部性而言,Kabbage比阿里小贷做得更广、更好,其中的原因,是因为美国社会对数据的所有权、使用权、收入权和转让权有更为清晰的界定,数据共享、交易的机制更为成熟。


    如果把这两家公司和传统的银行进行对比,我们就更能发现数据外部性之于大数据的关键意义。


    传统的银行要给一家企业贷款,必须针对这项贷款申请去访谈调查、收集数据,而被调查的企业在提出贷款申请之前,已经有所准备,他们可能采取相应的措施迎合、糊弄银行的调查,也就是说,这个过程是“先有目的、后有数据”,可能因为既定的目的,数据在收集的过程中遭遇扭曲;而阿里小贷所利用的流水数据,其最初收集的目的是记录交易过程,完全和贷款申请无关,其数据遭到扭曲的可能性几乎为零。


    也就是说,数据外部性是“先有数据,再应用于不同的场景和目的”,数据的可信度因此更高。


    除了推动经济发展,数据外部性还可以应用到社会管理领域。2014年8月24日,旧金山地区发生了6.0级地震,次日,可穿戴式设备运营商Jawbone发布了其数据分析。


    数据表明,在距离震中较近的地区,有93%的手环用户在地震发生之时3:20分被惊醒,其中45%在地震之后就没有再睡着,惊醒用户的比例随着距离震源的远近而呈现清晰的规律。可穿戴式设备收集数据的原始目的是为了监测、改善个体的健康情况,但这些数据加总到一起,新的效用产生了,社会学家可以用它们掌握一个地区的人是否集体在失眠、焦虑,甚至一个晚上总共翻了多少次身,从而可以更好地解释人际互动乃至社会分层机制,交通部门可以解释为什么第二天交通事故增多,保险公司可以利用这些数据制定更加个性化的保单价格……这些前所未有的可能性,都是数据外部性带来的。


    随着传感器和智能手机的普及,数据还在大规模的爆炸,人体的生理活动、自然环境的状态、工厂的机器运行、城市的生活将被广泛的记录,未来的每一组数据,都具备各种外部性的潜在价值。挖掘利用这种外部性,将给全世界的科学研究、经济发展和社会治理带来巨大的机遇。当然,要注意的是,数据外部性也有正、负之分,负的外部性可能会危及国家安全、侵犯公民隐私。这又说明,要用好数据的外部性,我们还亟须建章立制。

 



© 著作权归作者所有

共有 人打赏支持
灵玖lingjoin
粉丝 85
博文 2881
码字总数 4069557
作品 0
东城
大数据基础软件厂商请小心“开源”陷阱!

  【IT168 评论】从最初的被禁发酵至如今的生死存亡大讨论,中兴事件值得我们反思和有所行动。这个问题是具备普遍性的,中兴不是第一家,也不会是最后一家,因此需要引起更深层次的思考以及...

it168网站 ⋅ 04/23 ⋅ 0

云时代的下半场,“深耕”模式的意义和远方

很多人都说云计算已经进入了下半场,这是一个从市场角度切入的看法。但云作为一种新的生产力,作为通往数字化转型的工具,决定云时代的并不是技术,也不是市场走势,而是企业客户的需求本身。...

玄学酱 ⋅ 03/05 ⋅ 0

五个步骤,搭建企业的“大数据视野”

波士顿咨询公司(Boston Consulting Group)最近的一项调查显示,公司拥有的大数据能力与他们渴望在三年内拥有的大数据能力之间存在着巨大的差距。 其中一项能力——优先级能力——的不足影响...

p柯西 ⋅ 06/12 ⋅ 0

腾讯技术工程 |腾讯数据平台部总监刘煜宏:这5大产品平台,展示了腾讯大数据的核心能力

12月13日,“2017互联网+大数据高峰论坛”在北京中国大饭店拉开帷幕。来自政府、研究机构及高校、企业的大数据专业人士共聚一堂,以“慧聚数据之力,赋能智慧政企”为主题,畅谈大数据的现状...

腾讯技术 ⋅ 01/31 ⋅ 0

无疆--->第八十七章 赵漫天

 什么情况? 楚羽是真的有点跟不上赵漫天的脑回路。 他觉得自己脑洞就够大的,但跟眼前这位比起来,似乎还差得远。 这思维跳跃的,简直了……跟那位妖族大圣孙猴子似的,一个跟头十万八千...

dm201801 ⋅ 02/19 ⋅ 0

北京供销大数据集团大数据管理平台研发完成走向商用

自“十三五”规划纲要出炉之后,国内相关厂商密集布局大数据基础设施、产业基地、数据中心及管理平台等,助推大数据产业能力落地。 近日,北京供销大数据集团(以下简称“SinoBBD”)宣布推出...

玄学酱 ⋅ 04/12 ⋅ 0

毕业季即将到来,码教授为您准备了一份礼物

tecode码教授 你是不是像我就算受了冷漠 也不放弃自己想要的生活 你是不是像我曾经茫然失措 一次一次徘徊在十字街头 来自张雨生《我的未来不是梦》 毕业就意味着失业,很多毕业生用此话来调侃...

li_173 ⋅ 05/09 ⋅ 0

侠之大者,为国为民 2018西湖论剑 · 网络安全大会精彩回顾

  一群顶尖高手在一起切磋技艺、共商大事是什么体验?      八百多年前,宋室南渡,民生凋敝,当时天下最顶尖的高手华山聚会。五大高手,弟子随行,为了一本《九阴真经》,斗了整整七天...

FreeBuf ⋅ 04/28 ⋅ 0

八年磨一剑,重新定义HBase——HBase 2.0&阿里云HBase解读

摘要:2018年6月6日,阿里云ApsaraDB for HBase2.0正式发布!从2010年开始“试水”到2018年,拥有了3个PMC,6个Committer,拥有中国最多HBase Committer的公司之一的阿里巴巴是如何八年磨一剑...

Mr_zebra ⋅ 06/13 ⋅ 0

北塔软件:BI+AI+DI,做IT运维数据掘金的使能者

需要决策的地方,都需要数据支撑,大数据的价值就在于此。随着云计算、大数据、移动化、社交网络等新兴应用的蓬勃发展,IT运维的数据量开始爆发。那么,这些数据是待开垦的荒山,还是价值连城...

玄学酱 ⋅ 03/05 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

数据结构与算法之双向链表

一、双向链表 1.双向链表的结点结构 typedef struct DualNode{ ElemType data; struct DualNode *prior; // 前驱结点 struct DualNode *next; // 后继结点}DualNode, *DuL...

aibinxiao ⋅ 38分钟前 ⋅ 0

五大最核心的大数据技术

大数据技术有5个核心部分,数据采集、数据存储、数据清洗、数据挖掘、数据可视化。关于这5个部分,有哪些核心技术?这些技术有哪些潜在价值?看完今天的文章就知道了。 大数据学习群:7165810...

董黎明 ⋅ 39分钟前 ⋅ 0

PhpStorm 头部注释、类注释和函数注释的设置

首先,PhpStorm中文件、类、函数等注释的设置在:setting-》Editor-》FIle and Code Template-》Includes下设置即可,其中方法的默认是这样的: /**${PARAM_DOC}#if (${TYPE_HINT} != "v...

nsns ⋅ 39分钟前 ⋅ 0

spring.net AOP

http://www.springframework.net/doc-latest/reference/html/aop-quickstart.html https://www.cnblogs.com/wujy/archive/2013/04/06/3003120.html...

whoisliang ⋅ 44分钟前 ⋅ 0

【HAVENT原创】创建 Dockerfile 生成新的镜像,并发布到 DockerHub

注意:Win7 与 Win10 的版本存在差异,Win7 版本使用 Docker Quickstart Terminal 进入控制台,Win10下面直接用管理员权限打开控制台或者 PowerShell 即可;另外 Win7 下面只能访问 C盘,/ap...

HAVENT ⋅ 44分钟前 ⋅ 0

pom.xml出现web.xml is missing ...解决方案

提示信息应该能看懂。也就是缺少了web.xml文件,<failOnMissingWebXml>被设置成true了。 搜索了一下,Stack Overflow上的答案解决了问题,分享一下。 目前被顶次数最多的回答原文如下: This...

源哥L ⋅ 45分钟前 ⋅ 0

js时间戳与日期格式之间相互转换

1. 将时间戳转换成日期格式 1 2 3 4 5 6 7 8 9 10 11 12 13 14 // 简单的一句代码 var date = new Date(时间戳); //获取一个时间对象 /** 1. 下面是获取时间日期的方法,需要什么样的格式自己...

Jack088 ⋅ 50分钟前 ⋅ 0

web添加log4j

添加xml配置log4j.properties # Global logging configuration---root日志设置#log4j.rootLogger=info,dailyRollingFile,stdoutlog4j.rootLogger=debug,stdout,dailyRollingFile---......

黄柳淞 ⋅ 51分钟前 ⋅ 0

如何解决生产环境宕机问题

写在前面:该篇宕机问题的排查难度远比上一篇(记一次解决线上OOM的心路历程)大的太多,上一篇中内存泄漏的问题是有迹可循的,本次的宕机在业务日志上没有任何征兆,另外本文有许多值得深挖...

寰宇01 ⋅ 今天 ⋅ 0

Redis查漏补缺:最易错过的技术要点大扫盲

作者介绍 孤独烟,中国平安研发工程师,目前负责规则云平台架构设计以及需求研发工作。毕业后一直从事Java开发工作,在Web开发、架构设计上有多年的实战经验。在MySQL性能优化、JVM调优、分布...

kim_o ⋅ 今天 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部