文档章节

关于数据分析:你想知道的都在这里!

大数据之路
 大数据之路
发布于 2012/10/03 17:17
字数 6408
阅读 150
收藏 0

1、数据分析的概念

数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,将他们加以汇总和理解消化,以求最大化地开发数据的功能,发挥数据的作用。

2、做数据分析的原因

1、有效避免拍脑袋、主观臆想;

2、为决策提供支撑,更能说服人;

3、通过数据分析,可以看到决策的效果、问题以及未来应该如何做。

知乎用户@绡页的答案很简单,但却一语中的:

1、“知错能改,善莫大焉”——可是错在哪里,数据分析告诉你。

2、“运筹帷幄之中,决胜千里之外”——怎么做好“运筹”,数据分析告诉你。

3、“以往鉴来,未卜先知”——怎么发现历史的规律以预测未来,数据分析告诉你。

3、数据分析的作用

数据分析是把隐藏在一大批看似杂乱无章的数据背后的信息集中和提炼出来,总结出所研究对象的内在规律。在企业的日常经营分析中有三大作用:
➤ 现状分析:
告诉你过去发生了什么具体体现在:
第一,告诉你现阶段的整体运营情况,通过各个经营指标的完成情况来衡量企业的运营状态,以说明企业整体运营是好了还是坏了好的程度如何,坏的程度又到哪里。
第二,告诉你企业各项业务的构成,让你了解 企业各项业务的发展及变动情况,对企业运营状况有更深入的了解。
现状分析一般通过日常通报来完成,如日报、周报、月报等形式。
比如:电商类型网站的日报中的现状分析会包括订单数、新增用户数、活跃率、留存率等指标同比或环比上涨还是降低了多少。
➤ 原因分析:
告诉你某一现状为什么发生。
经过第一阶段的现状分析,我们对企业的运营情况有基本了解,但不知道运营情况具体好在哪里。差在哪里,是什么原因引起的。这就需要原因分析。
原因分析一般是通过专题分析来完成的,根据企业运营情况选择针对某一现状进行原因分析。 
比如:某电商网站某一天的日报中某件商品突然销量突然增加,那么就需要针对这件商品销量突然增加做专题分析,看是什么因素影响了该商品销量大增。
也可以用于分析活跃率、留存率等下降或升高的原因。
➤ 预测分析:

告诉你将来会发生什么。
在了解企业运营状况以后,有时还需要对企业未来发展趋势做出预测,为制定企业运营目标及策略提供有效的参考与决策依据,以保证企业的可持续健康发展。
预测分析一般通过专题分析来完成,通常在制定企业季度、年度计划时进行。
比如:通过上述的原因分析,我们就可以针对性做出一些政策,比如通过原因分析,我们可以得出面包的销量在台风来临之际销量会突增,那么我们在下次台风来临之前就应该多准备面包货源,同时为了获得更多的销量做一系列准备。

4、数据分析的逻辑

一般而言,数据分析的逻辑是:先明确数据分析的目的、然后理清用户消费流程和逻辑(实际上也就是梳理清楚业务逻辑),找出关键用户行为和数据,分析用户在消费行为中关键行为和数据找到问题,思考解决方案。

比如某电商做了一个专题活动,但效果却并不理想,现在需要寻找原因,那么它的逻辑就大致是:首先理清用户消费流程:专题活动页面——商品页面——下单购买,或者是通过搜索/导航——商品页面——下单购买;然后找出关键的用户行为:打开专题页或通过搜索导航、进入商品页面、点击购买、下单等;再然后确认是用户的哪个行为数据是否有异常的地方,也就是找到问题所在;最后就是思考怎样去解决这个问题。

5、数据分析方法

在数据来源正确的前提下,数据分析的方法可以分为定性分析和定量分析。

定性分析,就是对事物的性质作出判断,究竟它“是什么”。比如最近某一个产品的用户活跃度大幅度提升,而结合该款产品最近的更新情况可知,用户活跃度之所以大幅提升是该款产品上线了一个新功能导致的。

定量分析,是指对事情的数量做出统计,衡量它“有多少”。比如产品优化了登录注册流程,这一优化的效果是怎样的,带来了多少新注册用户,增长率是多少。

在《增长黑客》中有一段对数据分析的精彩论述,其中也有提到定性分析和定量分析的关系:

数据分析就是定性分析和定量分析的相互结合,不断验证的过程。提出假设、设计方案、分析数据、验证或推翻假设,最终抽丝剥茧,逐渐接近真相。数据是相互印证的,彼此之间有如通过无形的网络纵横连接,只需轻轻按动其中一个就会驱使另外一个或一组产生变化。

通过数据分析得出的结论,应当能反推出其他数据,或是与其他数据分析得出的结果相一致。例如,假设某日在线订餐网站的数据量猛升,猜测与天气阴雨、用户窝在办公室或家中不愿出门有关,那么就应当去翻查近期之内网站在阴雨天期间的访问数据,看是否出现了类似的攀升。

6、数据分析流程

明确目的——获取数据——处理数据——寻找异常值——分析原因——得出结论——验证结论

明确目的:清楚并理解此次分析的目的是什么,比如寻找某地城市的流量锐减的原因,这个很多时候是建立在你对业务逻辑/流程的理解,如果不了解的话,你所做的不是数据分析,顶多就是个数据整理的工作。而这就要求先确认分析维度,包括拉取什么数据、核心变量是什么、核心变量是否受到其他外界因素的影响(是否有其他需求上线?能否取到准确来源的数据?时间范围的数据是否出现数据问题?)

获取数据:很多时候我们需要自己动手从数据库里拉取相关数据,在拉取数据时,需要注意以下几点:

1、能在数据库里处理的,就不要拉到excel中处理;(比如走势图对比,有的系统比较高端,不同日期、不同指标之间直接就可以进行对比,而好多新人会在刚开始做数据分析的时候把数据导出来,自己制作走势图。)

2、语句是否完整:引号、分号、group by;

3、条件限制是否准确:时间、平台、页面、类别、是否去重、是否清洗;

4、语句逻辑是否正确;所取时间段数据是否不受外界因素影响等等。

处理数据:保存拉取出来的数据作为原始数据,保留相应的语句;掌握常用函数(Vlookup、sum、sumifs、Average、if、If error);当你认为所需要做的事情特别繁琐时,找人问;或者将你的问题清楚表述,然后百度,你要相信,你所遇到的问题别人很有可能早就遇到过。

寻找异常值:则是需要结合具体的业务才能进行,因为不同平台不同指标的异常值不同,我们需要熟悉自己平台的哪些指标为哪些值时为异常值。

分析原因:找到异常值以后,我们需要分析异常值出现的原因,在分析原因时会用到几种常见数据分析方法论和数据分析方法。

➤ 数据分析方法论主要是从宏观角度指导如何进行数据分析,他就像是一个数据分析的前期规划,指导后期数据分析工作的开展。

常见的数据分析方法论有:

➀  PEST分析法(P—Political政治环境、E—Economic经济环境、S—Social社会环境、T—Technological技术环境)

➁  5W2H分析法(Why、What、Who、When、Where、How、How much)

➂ 逻辑树分析法:是将问题的所有子问题分层罗列,从最高层开始,逐步向下扩展。

➃  4P营销理论:Product(产品)、Price(价格)、Place(渠道)、Promotion(促销)

➄ 用户行为理论:用于用户行为研究分析,用户行为是指用户对一个产品从认知、熟悉、试用、使用、忠诚的过程(常见指标有:IP、PV、页面停留时间、跳出率、回访者、流失率、关键字搜索、转化率、登录率)。

➤  数据分析方法是指具体的分析方法,例如我们常见的对比分析、交叉分析、回归分析、等数据分析法。

常见的数据分析方法

➀ 对比分析法

a  定义:将两个或两个以上的数据进行比较,分析他们的差异,从而揭示这些数据所代表的事物发展变化情况和规律性。

b  分类:对比分析法可以分为静态比较和动态比较

●  静态比较:同一时间条件下对不同总体指标的比较,如不同部门、不同地区、不同国家的比较,也叫横向比较。

●  动态比较:同一总体条件下对不同时期指标数值的比较,也叫纵向比较。

c  实践应用:常用于一下几个维度。

●  与目标对比:实际完成值与目标进行对比,属于横比。

●  不同时期对比:选择不同时期的指标数值作为对比标准,属于纵比。

●  同级部门、单位、地区对比,属于横比。

●  行业内对比:与行业中的标杆企业、竞争对手或行业的平均水平进行对比,属于横比。

●  活动效果对比:对某项营销活动开展前后进行对比,属于纵比。

➁  分组分析法

先经过数据加工,对数据进行数据分组,然后对分组的数据进行分析。分组的目的是为了便于对比,把总体中具有不同性质的对象区分开,把性质相同的对象合并在一起,保持各组内对象属性的一致性、组与组之间属性的差异性,以便进一步运用各种数据分析方法来解释内在的数量关系。 

➂  结构分析法  

指被分析总体内的各部分与总体之间进行对比的分析方法,即总体内各部分占总体的比例。(市场占有率是典型的应用)

➃  平均分析法

运用计算平均数的方法来反映总体在一定的时间、地点条件下某一数量特征的一般水平。

平均指标可用于同一现象在不同地区、不同部门或单位间的对比,还可用于同一现象在不同时间的对比。

➄   交叉分析法

通常用于分析两个变量之间的关系,即同时将两个有一定联系的变量及其值交叉排列在一张表格内,使各变量值成为不同变量的交叉节点,形成交叉表。

➅  漏斗图分析法

漏斗图可以很好的反映网站各步奏转化率,利用对比法对同一环节优化前后的效果进行对比分析来反映某个步奏转化率的好坏。

➆  矩阵关系分析法

相当于直角坐标系,横纵坐标代表不同指标值(满意度、重要性等)。

得出结论:根据原因分析得出结论。

验证结论:则是需要从其他维度去验证一下结论的可靠性

7、数据分析几大误区

因为数据的客观性,让数据变成了发掘问题本质,寻找事物规律所需要用到的最有利的手段之一。但是,数据虽然客观,有时也是会骗人的。在与数据打交道的过程中,我们可能经常会犯一些错误,导致分析的结论出现较大的偏颇。因此,在做数据分析时,我们需要警惕这5个常见误区:

1. 选取的样本容量有误

08年奥运会上,姚明的三分投篮命中率为100%,科比的三分投篮命中率为32%,那么是不是说姚明的三分投篮命中率要比科比高?

显然不能这么说,因为那届奥运会,姚明只投了一个三分球,科比投了53个。

因此,在做数据对比分析时,对于样本的选取,需要制定相同的抽样规则,减少分析结论的偏差性。

2. 错判因果关系

某电商网站数据显示,商品评论的数量与商品销售额成正比。即一个商品评论数量越多,那么该商品的销售额也会越高。

假如我们认为评论多是销量高的原因的话,数据分析的结论就会指导我们,需要创造更多的商品评论来带动商品销量。

但如果真的这样操作的话,就会发现很多商品的销量对于评论的敏感度并不一样,甚至很多商品销量很高,但与其评论的多少毫无关系。

这里,我们就需要思考,评论真的是影响销量的必然因素吗?

除了评论之外,影响销量的因素,还有其质量、价格、活动等,如果能完整的认识到这些因素,那我们要拉升商品销量,首先会需要先从其他角度来考虑,而非评论入手。

因此,在分析数据的时候,正确判断数据指标的逻辑关系应该找几者之间的相关关系而不是因果关系。(该知识点来源于大数据时代)

3. 被数据的表达技巧所蒙蔽

上图从表面上来看,第二个图表显然更吸引人,转化率增长更加可喜。

但实际上,两个图表使用的是同一组数据。第二个图表,仅仅是更改了纵轴范围,就在视觉上觉得第二个的转化率增长幅度更大。

因此,在做数据分析时,我们需要警惕一些数据处理的小计俩,不要被数据的视觉效果所蒙蔽。

4. 过度依赖数据

过度依赖数据,一方面,会让我们做很多没有价值的数据分析;另一方面,也会限制产品经理本来应有的灵感和创意。

比如,分析马车的数据,很可能我们得出的结论,是用户需要一匹更快的马车。如果过度依赖数据,局限了我们的思维,就很有可能不会有汽车的诞生。

很多优秀甚至伟大的产品决策,并非通过数据发现的,而是一个产品经理综合智慧的体现。

2. 忽略沉默用户

用户迫切需要的需求≠产品的核心需求

产品经理在听到部分用户反馈的时候就做出决策,花费大量的时间开发相应的功能,往往结果,可能这些功能只是极少部分用户的迫切需求,而大部分用户并不在乎。

忽略沉默用户,没有全盘的考虑产品大部分目标用户的核心需求,可能造成人力物力的浪费,更有甚者,会错失商业机会。

最后:

数据是客观的,但是,解读数据的人是主观的。只有正确的认识数据,才能正确的利用数据。

在做数据分析时,对待数据我们必须要有一个求证的心态,并需要时刻警惕那些被人处理过的二手数据。

8、专业数据分析师需要具备的能力

从数据分析的四个步骤来看清数据分析师需具备的能力和知识:

数据分析的四个步骤(这有别于数据挖掘流程:商业理解、数据理解、数据准备、模型搭建、模型评估、模型部署),是从更宏观地展示数据分析的过程:获取数据、处理数据、分析数据、呈现数据。

(一)  获取数据

获取数据的前提是对商业问题的理解,把商业问题转化成数据问题,要通过现象发现本质,确定从哪些纬度来分析问题,界定问题后,进行数据的采集。此环节,需要数据分析师具备结构化的思维和对商业问题的理解能力。

推荐书籍:《金字塔原理》、麦肯锡三部曲:《麦肯锡意识》、《麦肯锡工具》、《麦肯锡方法》

工具:思维导图、mindmanager软件

(二)  处理数据

一个数据分析项目,通常数据处理时间占70%以上,使用先进的工具有利于提升效率,所以尽量学习最新最有效的处理工具,以下介绍的是最传统的,但却很有效率的工具:

Excel:日常在做通报、报告和抽样分析中经常用到,其图表功能很强大,处理10万级别的数据很轻松。

UltraEdit:文本工具,比TXT工具好用,打开和运行速度都比较快。

ACCESS:桌面数据库,主要是用于日常的抽样分析(做全量统计分析,消耗资源和时间较多,通常分析师会随机抽取部分数据进行分析),使用SQL语言,处理100万级别的数据还是很快捷。

Orcle、SQL sever:处理千万级别的数据需要用到这两类数据库。

当然,在自己能力和时间允许的情况下,学习新流行的分布式数据库及提升自身的编程能力,对未来的职业发展也有很大帮助。

分析软件主要推荐:

SPSS系列:老牌的统计分析软件,SPSS Statistics(偏统计功能、市场研究)、SPSS Modeler(偏数据挖掘),不用编程,易学。

SAS:老牌经典挖掘软件,需要编程。

R:开源软件,新流行,对非结构化数据处理效率上更高,需编程。

随着文本挖掘技术进一步发展,对非结构化数据的分析需求也越来越大,需要进一步关注文本挖掘工具的使用。

(三)  分析数据

分析数据,需要用到各类的模型,包括关联规则、聚类、分类、预测模型等,其中一个最重要的思想是对比,任何的数据需要在参照系下进行对比,结论才有意义。

推荐的书籍:

1、《数据挖掘与数据化运营实战,思路、方法、技巧与应用》,卢辉著,机械出版社。这本书是近年国内写得最好的,务必把它当作圣经一样来读。

2、《谁说菜鸟不会数据分析(入门篇)》和《谁说菜鸟不会数据分析(工具篇)》,张文霖等编著。属于入门级的书,适合初学者。

3、《统计学》第五版,贾俊平等编著,中国人民大学出版社。比较好的一本统计学的书。

4、《数据挖掘导论》完整版,[美]Pang-Ning Tan等著,范明等翻译,人民邮电出版社。

5、《数据挖掘概念与技术》,Jiawei Han等著,范明等翻译,机械工业出版社。这本书相对难一些。

6、《市场研究定量分析方法与应用》,简明等编著,中国人民大学出版社。

7、《问卷统计分析实务---SPSS操作与应用》,吴明隆著,重庆大学出版社。在市场调查领域比较出名的一本书,对问卷调查数据分析讲解比较详细。

(四)  呈现数据

该部分需要把数据结果进行有效的呈现和演讲汇报,需要用到金字塔原理、图表及PPT、word的呈现,培养良好的演讲能力。

推荐书籍:

1、《说服力让你的PPT会说话》,张志等编著,人民邮电出版社。

2、《别告诉我你懂ppt》加强版,李治著,北京大学出版社。

3、《用图表说话》,基恩。泽拉兹尼著,马晓路等翻译,清华大学出版社。

(五)  其他的知识结构

数据分析师除了具备数学知识外,还要具备市场研究、营销管理、心理学、行为学、产品运营、互联网、大数据等方面的知识,需要构建完整广泛的知识体系,才能支撑解决日常遇到的不同类型的商业问题。

推荐书籍:

1、《消费者行为学》第10版,希夫曼等人著,江林等翻译,中国人民大学出版社,现在应该更新到更高的版本。

2、《怪诞行为学》升级版,艾瑞里著,赵德亮等翻译,中信出版社

3、《营销管理》,科特勒等著,梅清豪翻译,格致出版社和上海人民出版社联合出版

4、《互联网思维---独孤九剑》,赵大伟主编,机械出版社

5、《大数据时代---生活、工作与思维的大变革》,舍恩伯格等著,周涛等翻译,浙江人民出版社

PS:这里提到的能力要求为专业数据分析师需要掌握的技能,一般用数据来辅助产品、辅助运营的数据分析不需要这么高难度的。

9、数据分析是职业发展

1、数据分析师通常分两类,分工不同,但各有优势。

一类是在专门的挖掘团队里面从事数据挖掘和分析工作的。如果你能在这类专业团队学习成长,那是幸运的,但进入这类团队的门槛较高,需要扎实的数据挖掘知识、挖掘工具应用经验和编程能力。该类分析师更偏向技术线条,未来的职业通道可能走专家的技术路线。

另一类是下沉到各业务团队或者运营部门的数据分析师,成为业务团队的一员。他们工作是支撑业务运营,包括日常业务的异常监控、客户和市场研究、参与产品开发、建立数据模型提升运营效率等。该类型分析师偏向产品和运营,可以转向做运营和产品。

2、数据分析师的理想行业在互联网,但条条大道通罗马,走合适你的路线。

从行业的角度来看:

1)互联网行业是数据分析应用最广的行业,其中的电商企业,更是目前最火的,而且企业也更重视数据分析的价值,是数据分析师理想的成长平台。

2)其次是咨询公司(比如专门的数据挖掘公司Teradata、尼尔森等市场研究公司),他们需要数据分析人才,而且相对来说,数据分析师在咨询公司成长的速度更快,专业也会更全面。

3)再次是金融行业,比如银行和证券等行业,该行业对数据分析的依赖需求,越来越大。

4)最后是电信行业(中国移动、联通和电信),它们拥有海量的数据,在严峻的竞争下,也越来越重视数据分析,但进入这些公司的门槛比较高。

Refer:

[1] 关于数据分析:你想知道的都在这里!

http://bit.ly/2bDyrby

本文转载自:http://bit.ly/2bDyrby

共有 人打赏支持
大数据之路
粉丝 1543
博文 516
码字总数 343694
作品 0
武汉
架构师
私信 提问
菜鸟学Python|数据分析精华文章大集合

阅读本文大概需要3分钟 Python的数据分析是我比较喜欢的一个方向,因为可以探索数据里面的秘密,加上可视乎会非常漂亮,但是里面也蕴含着很多技巧的综合,陆陆续续我已经写了好多这样的文章,...

菜鸟学python
2017/12/17
0
0
视频的「编解码」与「传输」的那些事儿

本文来自作者 Owen Chan 在 GitChat 上分享「关于视频的编解码与传输技术,你想知道的都在这里」,「阅读原文」查看交流实录 「文末高能」 编辑 | 泰龙 一、如何编译 FFmpag 准备工作 下载 ...

gitchat
2017/11/24
0
0
EOS原力最全资料,你想知道的都在这里!

1 操作教程合集 如何获取EOS Coin并拿到高达814%年化收益? 如何在 EOSForce 主网获取最大收益 如何获得EOS COIN|交易所用户篇 如何获得EOS COIN—IMtoken用户篇 如何获得EOS COIN|麦子钱包...

EOS原力
07/17
0
0
关于算法工程师,你想知道的都在这里!

点击上方“程序人生”,选择“置顶公众号” 第一时间关注程序猿(媛)身边的故事 作者 人心不古 原帖源自 https://www.douban.com/group/topic/117522456/#sep 他是一位入职满一年的算法工程...

csdnsevenn
05/27
0
0
【GitChat】精选——双 11 大前端工程师读书清单

GitChat 是一款基于微信平台的 IT 阅读/写作互动产品。我们的目的是通过这款产品改变 IT 知识的学习方式,让专业读者获得自主选择权,让知识分享者获得收益。 关于GitChat 你想知道的都在这里...

blogdevteam
2017/11/09
0
0

没有更多内容

加载失败,请刷新页面

加载更多

MySQL主从配置——双主

MySQL主从配置——双主 本人是测试环境,准备了两台安装好mysql的服务器(masterA和masterB),可以保证没数据写入,否则需要先将两台服务器上的数据一致,然后再进行主从配置,步骤是:先m...

弓正
19分钟前
7
0
centos下如何使用 beyond compare 对比工具

我这里的环境是centos7桌面版 三条命令安装beyond compare wget http://www.scootersoftware.com/bcompare-4.2.3.22587.x86_64.rpmrpm --import http://www.scootersoftware.com/RPM-GPG-K......

linuxprobe16
23分钟前
5
0
http协议请求头的意义

GET /day31_Http_306/index.jsp HTTP/1.1: GET请求,请求服务器路径为/hello/index.jsp,协议为1.1 请求头 1.Host:localhost:请求的主机名为localhost2.User-Agent:Mozilla/5.0(Windows NT......

潇潇程序缘
今天
9
0
Netty 简单服务器 (三)

经过对Netty的基础认识,设计模型的初步了解,来写个测试,试试手感 上篇也说到官方推荐我们使用主从线程池模型,那就选择这个模型进行操作 需要操作的步骤: 需要构建两个主从线程组 写一个服务器...

_大侠__
今天
15
0
day02:管道符、shell及环境变量

1、管道符:"|" 用于将前一个指令的输出作为后一个指令的输入,且管道符后面跟的是命令(针对文档的操作):cat less head tail grep cut sort wc uniq tee tr split sed awk等) [root@localho...

芬野de博客
今天
19
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部