文档章节

大数据分析的道与术总结

strict_nerd
 strict_nerd
发布于 2017/05/03 21:24
字数 1177
阅读 20
收藏 1

怎么进行数据分析

从业务中来,到业务中去,顾名思义,数据分析要围绕业务进行,由此我们得出来 业务调研->创新分析->逻辑思考->可行建议

数据分析的关键

数据分析的关键是方法而不是技术,就像我们写作一样,华丽的修辞并不重要,最重要的要表达出自己的想法以及意境和格局。 多角度思考问题,通常我们可以拓展知识面,比如说,从经济学,心理学和统计学进行数据分析

数据分析要避开的坑

精心准备的数据, 从数据相关性得出结论,数据分析不通过比较,数据准备不充分,先入为主 ,从统计学的观念入手,过度脑补的推理

统计学是怎么发明的?

生活中,我们面对事情,要多想想为什么,而不是是什么,探讨问题背后的本质才是最重要的。之所以使用统计被发明是因为统计学能够简化数据,通过更简单的方式看到数据的本质。

统计学真的可信吗?

统计学是对抽样慨率的一种体现,所以我们不能全新,如果这样说的话,感觉统计学几乎没什么作用了,但是大数定律告诉我们随着我们对抽样样本的增多,统计值会无限趋向于真实值。

数据分析过程我们要善于从不同的维度进行分析事物,但是随着维度的增加,会造成数据量的减小,所以我们要学会使用大数定律进行权衡利弊。

我们要怎么认知这个世界?通过平行的理论(实验组和对照组),通过统计抽样进行比较(根据大数定律,数据抽样要尽可能大,减少正态分布的误差)

我们思考问题的入手方式有哪些?化繁为简,逐步改进。找出典型,从中入手。基于需求,做出应用。

分析数据的实用方法?

拆指标

分布分析,我们在分析数据时不能只看统计数据,还要看分布状态。

趋势分析,不同的场景使用不同的方案去做分析

因素分解, 分为纵向拆分(分模块划分)和横向逻辑(加减乘除)两种办法

拆数据

个案分析 选择明显特征的个案进行分布分解分析 异常分析 科学或者数据分析的进步都是因为异常而被发现的 分组分析 针对不同的需求进行不同的群体划分,例如,广告投放业务,我们需要按照,新老客户,大小客户,不同行业客户进行划分.

怎么分组

分组分析在实际使用种又可以分为留存分析,价格歧视,根据不同用户群体和需求细分

相关领域分析

通过四象限法则,把不同的用户或者事物进行划分。

olap分析方法

切片(按照不同维度进行划分)和钻取(更进一步的细分)

非监督机器学习算法

聚类分析: 告诉机器按照不同的维度进行划分出数据模型 关联分析: 按照我们想要的模式进行划分(置信度和知识度要高)

监督学习算法

给出假设算法模型,机器穷举计算,得出最优算法(随着特征的越来越多,正态分布最后会形成一条线,分析的也是越来越准确)

机器学习说白了人的学习(人根据业务,取得样本,设计算法,机器执行,查看结果),机器只是在执行。

银行信贷算法是基于似然概率进行计算得出。

大数据的作用?

通过大量的数据,我们能够对一些特征值进行细化,根据特征值又能进一步高效利用大数据 对于大数据,我们首先要有一个这样的认识,数据分析技术并不重要,我们首先要有一定数据积累,然后结合我们的业务模型,然后利用数据技术,分析出可用的技术。 编程基础(python和R语言)+ 结合具体业务 输入图片说明

一个团队,每个人扮演的角色都非常重要,我们要善于发现别人的美,不能存在比较之心。

© 著作权归作者所有

strict_nerd
粉丝 11
博文 53
码字总数 27387
作品 0
郑州
程序员
私信 提问
大数据一体化:迈向人工智能的“必由之路”

近日,由北京供销大数据集团(SinoBBD)举办的“加快大数据中心一体化进程·2017北京峰会”在京召开。创新工场及人工智能工程院、科蓝软件、Testin云测、中国银行数据中心、清华大学经济管理...

玄学酱
2018/04/24
0
0
我在阿里的第322天,这是我的review

———— / BEGIN / ———— 微风轻轻吹拂,20多度的杭州,特别适合坐在室外吹着风、喝点茶、码个字,拥有一个专属于自己的“90后老阿姨的休闲时刻”。 4月,是阿里的绩效月,这一个月里,总...

k7jz78gejj
2018/04/24
0
0
火爆全网的《长安十二时辰》,里面的高科技居然是大数据!

最近有一部网剧《长安十二时辰》正在刷屏网络。截止现在,#长安十二时辰#微博话题阅读量达到了52.1亿,讨论量达到了967万。此外,上线仅3周,豆瓣评分达到了8.6分,创下2019年国产剧最高分记...

DataHunter小数
07/19
0
0
北京大数据技术分析与实战案例分享(百度、京东、Hulu大咖云集)

百度,京东,Hulu,阿里《解密双十一背后的“大数据”技术支持》 大数据前沿技术与实战案例分享 主讲嘉宾: 百度·毕然 百度资深研究员,在商业营销、在线广告、电信、国家安全等领域有丰富的...

简直是天才
2016/11/21
279
0
北京大数据技术分析与实战案例分享(百度、京东、Hulu大咖云集)

百度,京东,Hulu,阿里《解密双十一背后的“大数据”技术支持》 大数据前沿技术与实战案例分享 主讲嘉宾: 百度·毕然 百度资深研究员,在商业营销、在线广告、电信、国家安全等领域有丰富的...

简直是天才
2016/11/21
28
0

没有更多内容

加载失败,请刷新页面

加载更多

OSChina 周五乱弹 ——不知道假装开心,装的像么

Osc乱弹歌单(2019)请戳(这里) 【今日歌曲】 @巴拉迪维 :天黑了 你很忧愁, 你说世界上, 找不到四块五的妞, 行走在凌晨两点的马路上, 你疲倦地拿着半盒黄鹤楼。#今日歌曲推荐# 《四块...

小小编辑
今天
2.1K
16
64.监控平台介绍 安装zabbix 忘记admin密码

19.1 Linux监控平台介绍 19.2 zabbix监控介绍 19.3/19.4/19.6 安装zabbix 19.5 忘记Admin密码如何做 19.1 Linux监控平台介绍: 常见开源监控软件 ~1.cacti、nagios、zabbix、smokeping、ope...

oschina130111
昨天
68
0
当餐饮遇上大数据,嗯真香!

之前去开了一场会,主题是「餐饮领袖新零售峰会」。认真听完了餐饮前辈和新秀们的分享,觉得获益匪浅,把脑子里的核心纪要整理了一下,今天和大家做一个简单的分享,欢迎感兴趣的小伙伴一起交...

数澜科技
昨天
32
0
DNS-over-HTTPS 的下一代是 DNS ON BLOCKCHAIN

本文作者:PETER LAI ,是 Diode 的区块链工程师。在进入软件开发领域之前,他主要是在做工商管理相关工作。Peter Lai 也是一位活跃的开源贡献者。目前,他正在与 Diode 团队一起开发基于区块...

红薯
昨天
112
0
CC攻击带来的危害我们该如何防御?

随着网络的发展带给我们很多的便利,但是同时也带给我们一些网站安全问题,网络攻击就是常见的网站安全问题。其中作为站长最常见的就是CC攻击,CC攻击是网络攻击方式的一种,是一种比较常见的...

云漫网络Ruan
昨天
31
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部