大数据分析数据科学应用场景与实践笔记

原创
2017/01/15 14:19
阅读数 493

1.大数据及其分析

IBM每天的约产生2.5艾数据,单位换算:1艾=1024*1024TB  

客户终身价值:CLV, customer lifetime value.

分析过程模型:第一步:全面清晰地定义所需解决的业务问题;第二步:调研企业内外部的源数据;第三步:数据清洗;第四步:数据转换;第五步:建模;第六步:模型结果解释和评估;最后一步:模型的输出结果简单便捷地输入到其他系统 。

分析建模中的任务及角色:DBA,业务专家,法律专家,数据科学家,软件工具供应商。

分析模型的要求:第一:业务相关性;第二:模型应具有统计学意义和预测力;第三:模型结果的可解释性和合理性;第四:分析模型必须兼顾运行效率;第五:经济成本;最后:遵守法律法规。

 

2.数据采集、抽样和预处理

分析项目启动前,尽可能列出有潜在价值的所有数据源,基本原则是数据越多越好。

垃圾进垃圾出原理(GIGO)

数据源的类型:第一:交易记录;第二:文本文件;第三:定性信息、专家观点;第四:大量可公开获得的数据。

数据抽样:为什么要抽样?抽样应尽可能避免偏差。进门人群(TTD, Through-The-Door):所有来到银行且申请抵押贷款的客户。

数据类型:数据元素的不同类型(连续、离散变量),常见的变量类型:连续变量(变量的取值落在某个区间,这个区间可能有上下限,也可能无上下限),分类变量(无序分类变量:其取值只能在一个有意义的序列中选取,不同取值无顺序或程度上的差别;定序分类变量:取值只能在一个有意义的序列中选取,不同取值有顺序或程度上的区别;二元分类变量:分类结果只有两个取值,如性别,雇佣状态等)。

数据可视化及探索性统计分析:用各类图表。在数据可视化分析之后,进行基本的统计分析:如计算方差,平均值,标准偏差,最大、最小值,百分位数和置信区间等,以挖掘有趣的特征模式。

缺失值的处理:替代估值法,剔除缺失值,维持不变(缺失值可能是有意义的)。

异常值的检测及处理:异常值有两种类型:有效的异常值,无效的异常值;可通过可视化或计算最大最小值来检测异常值;可基于业务常识或专家经验设定有效值的上下限。

数据标准化:数据标准化是一种数据预处理活动,目标是把不同性质、不同量纲的变量进行指数化处理,调整到可类比的范围。在以回归为方法的模型方法中,数据标准化特别有效,但不是所有模型技术都需要做数据标准化处理,如决策树模型就不需要对数据进行标准化处理。

粗分类处理:归类的方法有很多,最常用语的是等间距分类和等频数分类。

非单调性与单调性相对应,如果y=f(x)在某个区间是增函数或减函数,就称函数在这一区间具有严格的单调性,这一区间叫做y=f(x)的单调区间。函数的单调性也叫函数的增减性。

卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,卡方值越大,越不符合,偏差越小卡方值就越小,越趋于符合,若量值完全相等时,卡主值为0,表明理论值完全符合。

WOE(weights of evidence)值的计算:引入了WOE变量简化模型,降低了模型的可解释性。

变量的选择:有意义的变量通常只有10-15个,称为聪明变量,过滤器方法是一种常用的变量选择机制,其原理是测量每个变量(单变量)与目标变量的相关性。

细分:很多时候,在正式建模前,需要把数据分成不同的子集,也就是细分客户群。可能是从战略需要考虑或者是出于从可持续运营的角度考虑。现在模型不适用于新客户,所以需要为新客户单独建模。细分也可能是出于某些重要变量的作用。如某个变量与多个变量均有极强的相关性,这个变量可能就是细分客户群的聪明变量。

细分可以根据专家经验也可基于统计分析技术,如决策的树,k-means聚类算法或自组织映射算法。

细分是一种非常有效的数据预处理方法,企业通常针对不同细分的客户群采用不同的业务策略,因此不同客户群适用的模型技术也有差异。但细分后,分析模型数量会增加,将会明显增加建模,模型监控及运维总成本。

 

3.预测分析  

有两三类预测分析模型:回归(目标变量通常是连续型)和预测(目标变量通常是分类变量)。

定义目标变量:目标变量在模型的学习/训练过程中起着重要作用。

线性回归:是一种适用于连续型目标变量的最基本的建模技术。

Logistic回归模型。

穆迪风险(穆迪评级):一种证券评级制度,为投资者提供一个简单的等级系统,从而了解有关证券的相对来说信用质量等级。

决策树:决策树是一种递归分割算法(RPAs), 以树状结构来表示基础数据集中隐藏的各种模式。决策树是一种预测模型,代表的是对象属性与对象值之间的某种映射关系。树中的每个节点均表示某个对象属性,最上面的节点是根节点,每个分叉路径则代表着某个可能的属性值,位于末稍的终止节点称为叶节点,对应从根节点到该叶节点所经历的路径所表示的对象值。

常用的构建决策树算法:C4.5算法,分类回归树算法(CART算法),卡方自动交互检测算法(CHAID)。

构建决策的树时的3个关键点:第一:分裂决策(用什么变量什么值来做分裂),第二:停止分裂的决策(分裂到什么时候,这棵树什么时候停止生长),第三:确定类别的决策(叶节点的类别是什么(如好客户,坏客户))。

决策树的目标是实现叶节点的杂质最小化。

量化计算杂质指数的常用三种方法:A:熵值(C4.5模型);B:Gini值(CART模型);C:卡方分析(CHAID模型)。

建立分类树的方法也可用于停止分裂的决策。           

神经网络:位于中间的处理元件(或神经元)执行两个基本操作(把输入变量乘以各自的权重,并加上截距(在神经网络中称为偏离量),然后再用类似Logistic回归分析方法中的转换方法,进行非线性变换。所以在神经网络中,Logistic回归模型就是神经元。同样地,线性回归用转换函数f(z)=z进行转换后也可以作为神经元)

多层神经网络(MLP):很多多层神经网络有一个输入层,一个隐含层,一个输出层。隐含层使用了非线性转换函数,输出层使用了线性转换函数,转换函数也称为激活函数,最常用的激活函数有:Logistic函数,双曲正切函数,线性函数。

神经网络算法程序比较有效的方法步骤:第一:把数据集拆分为各自独立的没有重复样本的训练集、验证集和测试集;第二:在第一步或更多的训练步骤中尝试调整隐含神经元的数量(一般是从一个神经元开始,慢慢增加到10个为止);第三:利用训练集得到神经网络模型,利用验证集来评估模型性能(在处理局部极值问题时,可能需要训练多个神经网络模型);第四:利用验证集比较隐含神经元个数不同时的性能,找出最优时所对应的隐含神经元的个数;第五:利用测试集再次评估模型性能。

神经网络可用于仿真数据中的各种复杂模型、找出不同复杂决策问题的决策边界,因此功能非常强大。 

规则提取旨在用if/then条件分类规则来模仿神经网络的行为。规则提取中蕴含两个技术:分解技术和自学习技术。

分解技术是一种通过侦测变量权重和/或激活值来解析神经网络的内部工作机制的方法。

分解技术代表性的五步法:

第一:训练神经网络,并尽可能修剪掉多余分支/连接。

第二:应用聚类技术对隐含神经元的激活值进行分类。

第三:从隐含神经元激活值的分类结果出发,提取规则并描述神经网络的输出。

第四:从神经网络的输入出发,按隐含神经元的激活值类别提取规则并进行描述。

第五:关联合并第三和第四步的规则,建立神经网络的输入和输出之间的直接关系。

在自学习规则提取技术中,把神经网络视作黑盒子,并把黑盒子的输出结果——预测值,作为白盒分析技术(如决策的树等技术)的输入。

自学习规则提取技术实质是通过仿真数据来扩展和增强训练集,也就是把神经网络的预测值加入数据集中,并打上标签,后续再基于增强后的数据集构建决策树模型时,可以把神经网络的预测值作为决策树的分裂变量。

保真度:即在何种程度上复制了神经网络的结果。

另一种使增强神经网络结果可解释性的方法是两阶段建模。其基本想法是先采用一些易于理解的模型(如线性回归、Logistic回归)进行初步的估计,这步保证结果的可解释性。在第二阶段,在同一个数据集中应用神经网络技术建模,修正第一阶段简单模型的误差。最后把两个模型的结果组合在一起。

支持向量机:神经网络有两个主要缺点:目标函数是非凸函数(因此可能有多个局部极值);需要耗费大量时间调整隐含神经元数目。


?集成算法:集成算法是针对同一个预测目标,采用多种分析技术,建立多个模型,而不是只用一种方法技术建立一个模型。

3种常用集成算法:套袋算法(Bagging),Boosting算法,随机森林算法(在机器学习中,随机森林是一个包含多个决策树的分类器,其输出的分类结果由各棵树(称为基分类器)的输出类别的众数决定)。

多类分类技术(多类Logistic回归,多类决策树,多类神经网络,多类支持向量机)

预测模型的评估:数据集的分割,分类模型的性能评估,回归模型的性能评估(回归模型的性能评估有多种方式,最常用最重要的的指标是R平方)。

 

4.描述性分析

描述性分析是旨在描述客户的行为模式,相对于预测分析,描述性分析没有实际的目标变量(如,流失或欺诈指示器),因此描述性分析是一种没有目标变量引导的学习过程,所以通常被称为无监督学习。

最常见的三种描述性分析:关联规则(检测某些常见行为模式的内在关系),序列规则(检测事件的发生顺序),聚类(检测相似度高的细分群)。

支持度和置信度是度量关联规则强度的两个关键指标。

分层聚类:分层聚类法就是对给定数据对象的集合进行层次分解,根据分层分解采用的分解策略,分层聚类法又可分为凝聚的和分裂的分层聚类。

K-Means是一种非分层聚类算法。


5.生存分析

生存分析聚焦于将事件的结果(终点事件)和出现这一结果所经历的时间结合起来分析。

生存分析的实践应用领域:预测患者接受治疗后的存活时间,预测客户的流失时间,预测客户下次购买的时间,预测客户违约的时间,预测客户提前偿还贷款的时间,预测客户下次访问网站的时间等等。

第一类生存分析是卡普兰.梅尔分析,用于估计不同时间的总体生存率。

参数法生存分析:假设事件的发生时间服从某种分布规律。

比例风险回归模型,生存分析模型的扩展:把随时间而变化的变量纳入模型。

生存分析模型的评估:首要考虑点是模型整体和单个协变量的预测力的统计显著性。


6.社交网络分析

社交网络的现实场景:以超链接方式连接在一起的网页,人与人之间的电子邮件网络,因引用而建立连接关系的论文,通信运营商的客户之间的电话呼叫,通过流动性依赖而连接在一起的银行,疾病在病人之间的传播等等。

社交网络的度量,社交网络的学习,关系邻近分类器,概率关系邻近分类器,关系逻辑回归,共同模式推断,自中心网络,偶图/二分图


7.从分析到生产力

模型的后验测试:是在模型投入运营后,通过比较模型预测值(事前)和真实值之间的差异,来确定当前模型是否还可用,是否需要优化或重新开发。(分类模型的后验测试,回归模型的后验测试,聚类模型的后验测试)

参照管理:把分析模型的输出结果及相关的性能指标与参照/标杆模型进行对比。

数据质量,软件工具,模型相关文档,公司治理。


8.实践与案例

信用风险建模:在信用风险建模中,可以采用多种不同的分析模型技术,第一种模型技术是应用计分卡,这是基于客户的信用程度建立的信用评分模型。这类模型通常取两个时间点的客户拍照信息:申请时间点信息,包括申请人基本信息、征集机构的评分及借贷记录,以及前12或18个月的违约信息。

欺诈检测:有监督学习、无监督学习、社交网络学习都可以用于欺诈检测建模。在有监督学习中,标签数据集中需要有真实的欺诈交易记录。

净响应建模:响应建模重点在于深化和恢复客户关系,通过针对性营销来获取新客户或赢回旧客户。这种类型的营销活动包括直邮、电邮,优惠券派发,体验活动等等。

流失预测:流失预测模型建模可用广为人知的建模技术,如决策的树,Logistic回归,也可用不太常见的建模技术,如支持向量机(SVM),贝叶斯网络(BN),生存分析,自组织映射(SOM),关系分类器(Relational Classifiers).

推荐系统:最重要的推荐系统建模技术:协同过滤推荐、基于内容的推荐、基于人口统计特征的推荐、基于知识的推荐和组合推荐。

协同过滤推荐:主要思想是基于其他用户的选择进行推荐,分为基于用户的协同过滤和基于物品的协同过滤两类。在基于用户的场景中,以与目标用户相似的用户对特定物品的购买情况和评价,来预测目标用户对该商品的喜好程度,进而做出推荐决策。在基于物品的场景中,首先确定目标物品的相似物品,然后基于用户与相似物品的关系来推荐目标物品。在构建协同过滤推荐系统时,还需要考虑评级,用评级来反映某个用户和某个物品之间的关系的紧密程度。

基于内容的推荐:基于内容的推荐系统,主要基于两种类型的信息源来推荐:产品特性和用户对产品的评级。

基于人口统计信息的推荐:基于人口统计信息的推荐技术,是将用户的年龄国籍性别等个人信息也作为计算用户相似度的依据,这种技术的最主要挑战是获取用户的个人信息,建立起用户的人口统计信息档案,然后向用户做推荐.

基于知识的推荐:与其他推荐技术的最主要差别在于推荐的数据源不同,基于知识的推荐可以看成一种推理技术,推荐系统需要一些补充功能,如对话交互功能,支持更多的输入信息采集,包括限制条件或要求等。可以分为两大类:基于约束的推荐和基于案例的推荐。(基于知识的推荐系统,就算只有非常用限的可用用户信息,仍然可以进行推荐,因而可以避免冷启动问题)

组合推荐:  组合推荐系统,兼具基于内容的推荐、基于知识的推荐,基于人口统计信息的推荐以及协同过滤推荐的优点,完美地解决了冷启动问题。

推荐系统的评价:关于推荐系统的评价,通常使用两类指标:推荐系统输出的推荐结果的好坏,以及推荐系统的时间性能和存储性能。

网页分析:互联网数据的度量、收集、分析并形成统计报表和分析报告的系列活动,目的是理解用户的网页访问行为,优化网页使用体验。

WebKPI 指标:Web网页数据采集后,可用于分析,并汇总计算出若干反映web网站的业务绩效/技术性能指标,也就是web KPIs.

A/B测试和多变量测试:A/B测试是通过建立实验页面,把不同页面或页面元素(标题字体、背景颜色、措辞等等)随机地推送给访客,然后分别统计不同页面的用户转化率,对比分析不同设计方案的优劣.被测试页可能是登录页,首页,结账页面,最常用的页面,或跳出率最高的页面等等。

在A/B测试中,对于被测试页面,一般有两个备选方案:A版本,B版本。对访客进行随机抽样并分组,分别推送原始网页、A版本、B版本与对照组进行对比.

多变量测试旨在同时测试同一网页的不同元素(如标题、布局、图片、销售切入点、卖点等)。

情感分析:Sentiment Analysis, 又称倾向性分析、意见抽取、意见挖掘、情感挖掘、主观分析、它是对带有情感色彩的主观性文本进行分析、处理、归纳和推理过程。

展开阅读全文
加载中
点击引领话题📣 发布并加入讨论🔥
打赏
0 评论
0 收藏
0
分享
返回顶部
顶部