文档章节

P2P行业大数据征信前瞻

灵玖lingjoin
 灵玖lingjoin
发布于 2014/09/30 17:12
字数 2170
阅读 11
收藏 0

9月23日,由上海市经信委、上海市金融办指导,上海市信息服务行业协会牵头编纂的《2014上海网络信贷服务业白皮书》发布。白皮书显示,目前央行征信中心针对拥有信用记录公民收集的信息共包含两类。一类是个人基本信息,另一类是信用卡消费及还款记录。但P2P网贷行业判断借款人信用评价的数据包含手机清单、个人收入证明、社保信息、家属身份信息、驾照信息等多达34个信息类别。这一现象充分显示了央行征信系统的局限性,因此,一直备受关注的P2P行业大数据征信再次引发关注。借这个机会,阳光宝利市场研究部希望对P2P行业大数据征信进行一次前瞻分析,简单解读这一趋势的特点与动态。




  在讨论大数据征信问题之前,首先要明确所谓大数据的概念。很多人以为,数据规模大就是大数据,这种观点是错误的。所谓大数据,不但数据规模大,而且最重要的是要数据结构复杂。正如前文提到的央行征信系统,其中包含了8亿居民的信用卡信息,规模巨大,然而由于只包含这一类信息,数据结构极其简单,因此并不能称之为大数据,充其量只能称其大型数据库。数据结构复杂要求针对数据库中每一个实体都有非常多属性的数据,以个人来说,不但要有各种社会学背景、财务数据等等,还应包括上网习惯、操作行为、移动路径等等一系列的数据,达到这种复杂程度的数据结构才能被称为大数据,才是P2P征信需要的大数据。




  目前,有这种复杂数据积累并且已经具备大数据分析基础的公司只有两家——百度和阿里巴巴。几乎所有中国网民都会使用百度或阿里巴巴的产品,因此这两家公司有足够的数据储备。同时,这两家公司都在至少五年以前就开始投入大量资源探索大数据业务。百度公司已经有一系列探索性质的大数据分析结果公布出来,根据这些分析结果判断,百度在大数据分析技术上已经趋于成熟。其研究成果最具代表性的就是百度经济指数预测。百度通过大数据对未来三个月进行经济指数预测,其预测结果与三个月后国家统计局公布的统计结果重合度极高:




2




  阿里虽然始终没有公布其大数据的研究成果,但是阿里巴巴已经开放大数据平台,同时保持每年暑假都举办大数据竞赛,吸引了大量优秀人才参与大数据分析工作中,又将这些人才的个人电脑纳入了大数据云端处理系统,增强了数据处理能力。在阿里巴巴成功IPO后,更是将大数据列为其募集资金的三大投资领域之一,因此即便其还没有成型的大数据研究成果出炉,但是可以预见阿里巴巴在这一领域应该很快就会有所建树。




  从目前阿里巴巴和百度拥有的数据资源判断,笔者认为未来P2P大数据征信的数据框架大概如下:




  社会学背景:最基础的分析维度,通过用户注册信息获得;




  现金流:判断经济状况的基础维度,通过宝宝类产品、第三方支付等数据获得;




  操作习惯:不同职业的用户操作习惯有非常显著的差异,可以用来佐证用户职业类型,通过用户操作习惯记录系统获得;




  信息偏好:不同阶层用户信息偏好同样有显著差异,通过用户搜索习惯获得;




  消费习惯:消费习惯代表消费能力,通过用户消费记录获得;




  人际网:根据社会分层理论,社会人总是在和自己同一层次的人互动,通过APP读取联系人信息获得;




  迁徙特征:可判断是否为本地人、旅游目的地偏好等,通过APP发送定位信息获得;




  消费场所信息:消费场所档次特征可以代表消费能力,通过APP发送定位信息获得。




  可见,大数据征信可以极大的丰富目前P2P行业的征信系统,虽然无法起到替代作用,但是可以从更多维度进行判断。但是排除政策等系统性障碍,大数据征信目前还面临着几个严峻的问题,导致不能完全发挥效用。




  第一,非结构化数据处理。在年初的百度大数据论坛上,百度公司的数据科学家就曾提到,目前百度大数据面临的最大问题就是无法从海量非结构化数据中筛选出有价值的数据,百度公司每天净增数据量大约为1PB,其中至少99%是无效数据,如何从中筛选出有效数据目前还是一个无法攻克的难关。




  第二,自然语义分析。大数据征信中有大量需要应用到自然语义分析的工作,如信息偏好等,都需要将文字转化为可以量化的数据,然而由于汉语不是进制语言,计算机无法直接识别,所以只能依靠自然语义分析,但汉语词语组合极其复杂,自然语义分析最基础的工作分词依然无法通过计算机完成,目前所有自然语义分析都是基于词库分词,效率极其低下,完全无法适应用户互联网使用习惯的快速变化。



  第三,大数据分析与市场研究的鸿沟。这一点是目前大数据征信面临最大但也最容易被人忽略的问题。当大数据还只停留在数据层面上时,对于P2P征信是没有意义的,必须有人将数据转化为结论,有何种上网行为的人按时还款的可能性更高,有哪些信息偏好的人更容易违约等等,这些问题无法直接反映在大数据的分析结果上,此时就需要有善于解读和分析客户行为的市场研究方通过市场研究手段进行数据解读与建模,然后才能被P2P公司应用。因此,大数据能够完全应用到P2P征信领域的前提是大数据部门与市场研究部门的对接融合,将数据转化为结论。但目前这两个部门之间存在非常严重的鸿沟,试想,一群连马斯洛都没听说的数据分析工程师与一群连oracle都不会读的市场研究人员之间在沟通时如何相互理解?因此目前中国整体大数据领域面临的最大问题就是数据分析工程师已经写出了大量的算法代码,但不知应该怎么用,而市场研究人员也做了大量假设和建模,但不知道怎么实现,双方在沟通的时候都在自说自话,沟通之后都发现自己什么都没听懂。这也就导致了大数据还只停留在一些有成型模型的宏观层面应用,无法深入到像P2P征信这种细化到个人行为判断的深度。




  因此,阳光宝利市场研究部认为,可以预期,在将来个人征信牌照发放之后,P2P大数据征信应该首先通过社会学背景和现金流这两个简单维度进行探索,同时等待自然语义研究的发展以及数据分析与市场研究单位打破双方之间的技术壁垒顺利对接,才能开始真正意义上的大数据征信时代。

 

 

© 著作权归作者所有

灵玖lingjoin
粉丝 85
博文 2884
码字总数 4069557
作品 0
东城
私信 提问
大数据征信进入洗牌期,区块链或成新一代征信系统底层架构

由于中国的消费金融需求旺盛但服务相对落后的行业特点,导致行业内数据滥用现象严重。 此前,人民银行征信中心副主任汪路在公开场合表示,在当前征信体系已经严重滞后于经济、金融发展需求的...

北丐09
2018/04/23
0
0
数据宝年底活动均有折扣充值最高送¥1500

数据宝中国首个省部共建的大数据资产运营平台,提供各政企大数据资源Api接口。 今日向您推荐: 1、乘机人价值评估:主要用来做用户画像、分析客户的消费能力,还款能力,商旅性质等,可用于金...

yxlk888
2016/12/20
1
0
1950-2019丨AI金融前世今生

  随着智能互联网的快速发展,人工智能将对传统金融业产生巨大影响。人工智能与金融的结合将提供个性化金融服务,完善信用和风险评级体系,增强金融市场信息对称性,提升金融交易的便捷性、...

乌镇智库
07/19
0
0
互金整治办要求将P2P平台逃废债借款人纳入征信

雷锋网(公众号:雷锋网)消息,据相关媒体报道,互联网金融风险专项整治工作领导小组办公室于8月8日向各省(自治区、直辖市)下发《关于报送P2P平台借款人逃废债信息的通知》(下简称“通知”...

AI金融评论
2018/08/09
0
0
数据宝与天翼征信签署战略合作协议

2016年12月5日,数据宝ChinaDataPay.com与天翼征信有限公司签署《战略合作协议》。根据协议,双方秉承“致力于为广大客户提供更好的大数据信用评估和反欺诈服务”的宗旨,共同携手推进大数据...

yxlk888
2016/12/07
2
0

没有更多内容

加载失败,请刷新页面

加载更多

让《强化学习(第2版)》架起一座通往强化学习经典知识宝库的桥梁

上交大计算科学与工程系俞凯教授,5分钟口述讲解,带你快速认识了解年度重磅图书《强化学习(第二版)》! 在 AlphaGo战胜李世石之后,AlphaZero以其完全凭借自我学习超越人类在各种棋类游戏...

博文视点Bv
28分钟前
6
0
TLA7-EVM开发板的处理器、NOR FLASH、DDR3

TLA7-EVM开发板是一款由广州创龙基于Xilinx Artix-7系列FPGA自主研发的核心板+底板方式的开发板,可快速评估FPGA性能。核心板尺寸仅70mm*50mm,底板采用沉金无铅工艺的6层板设计,专业的PCB...

Tronlong创龙
37分钟前
4
0
UUID的变种-有序

为了解决UUID无序的问题,NHibernate在其主键生成方式中提供了Comb算法(combined guid/timestamp)。保留GUID的10个字节,用另6个字节表示GUID生成的时间(DateTime)。 /// <summary> //...

Canaan_
37分钟前
5
0
Netty学习(6)——通道间数据传输

1. FileChannel实现通道间的数据传输 在Java NIO中,如果两个通道中有一个是FileChannel,那你可以直接将数据从一个channel传输到另外一个channel。 transferFrom() FileChannel的transferF...

江左煤郎
41分钟前
4
0
AngularDOM操作

gtandsn
42分钟前
3
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部