文档章节

5分钟入门数据分析

openfea
 openfea
发布于 2016/12/08 10:42
字数 888
阅读 85
收藏 0

        对于刚刚入门数据分析的同学来说,非常有必要对大数据分析流程有一个整体的认识,明白整个分析链都有哪些环节。当您清楚数据的分析过程之后,你自然也就找到了通向高阶分析的钥匙。除了具备解决异常问题的处理能力之外,更能轻松优化分析模型,甚至是通过已有的分析结果倒推出数据发展变化的经过。

        从大体上来讲,数据分析主要包括确定分析目标、收集数据、数据探索、构建分析模型、模型发布、可视化展示这几个流程。

           1、确定分析目标

         “凡事预则立,不预则废”,确立大数据分析目标同样适用。在分析数据之前,必须要明确分析的目标是什么?一般情况下,需要明确数据的维度,确定分析任务,定义问题领域。

           2、收集数据

        在明确了数据分析目标之后,就真正接触到了数据集。抽取数据之后,为了保证数据的分析结果,必须对数据进行去燥操作,得到精准数据。这方面的工具,一般包括ETL工具、EXCEL数据透视表、各类DATABASE等。而这一步中,最关键的是保证数据的质量。

           3、数据探索

        得到数据之后,首先要验证这些数据是否达到了我们的设想要求,通过训练数据,一步步的了解数据的特质,找出数据之间的关系与规律,为构建分析模型打好基础。常见的数据探索手段有交互分析、数据处理、可视化分析等,重点在于快速辨析数据的模式与特点以及规律,并把它们有序地发掘出来。

           4、构建分析模型

          这一步是整个数据分析的核心。需要考虑选择何种ML(机器学习算法)来构建模型,以反映样本数据的内部结构的一般特征。常用的工具主要是使用R语言、SPSS及近年来兴起的OpenFEA。而常见的机器学习算法,根据数据有没有标签,可以将机器学习算法分为有监督和无监督两类。以下列举了一些比较常见的机器学习算法。

           5、模型发布

        模型发布之前,需要运用专业知识对构建的分析模型进行初步评测判断和解释,以决定是否重复分析,通过不断的变更、迭代过程后,将完善后的分析模型,与计算框架、调度控制封装后进行发布。

           6、可视化展示

        运用可视化图形(饼图、柱形图、条形图、折线图、散点图、矩阵图等),将分析结果进行图形化输出。也可以通过构建分析门户,来提供单独的访问口径。这一步离客户端最近,但很多大数据分析系统将其省略。随着可视化分析的不断深 入,此流程将越来越受到重视。

        综上所述,数据分析的六个流程并不是每个大数据分析系统都覆盖的,很多大数据分析系统只侧重于一个或几个流程,无法做到全覆盖,而OpenFEA却能做到全流程、全覆盖!

© 著作权归作者所有

openfea
粉丝 19
博文 88
码字总数 98530
作品 1
杭州
其他
私信 提问
机器学习 人工智能 博文链接汇总

115 [入门问题] [TensorFlow] [深度学习] [好玩儿的算法应用实例] [聊天机器人] [神经网络] [机器学习] [机器学习算法应用实例] [自然语言处理] [数据科学] [Python] [Java] [机器学习--初...

aliceyangxi1987
2017/05/13
0
0
共享带宽明细数据导出及数据挖掘洞察

摘要: 共享带宽支持增强95计费和传统95计费模式,这两种计费模式会出月账单。月账单如果金额较大,用户会有对账需求。对账是指用户需要详细的看一下共享带宽实例上的带宽消耗情况。共享带宽...

许此一生
2018/08/30
10
0
基于Spark SQL实现对HDFS操作的实时监控报警

1.前言 E-MapReduce计划从EMR-3.18.1版本开始提供Spark Streaming SQL的预览版功能。Spark Streaming SQL是在Spark Structured Streaming的基础上做了进一步封装,方便用户使用SQL语言进行S...

鱼跟猫
04/12
0
0
Excel 2010基础应用技巧大全

在Excel基础大全里面,我全部透彻讲解Excel所有功能技术特点和应用方法,从Excel基础操作开始,逐步讲解公式与函数、格式设置、数据高级分析、模拟分析、数据透视表、图表、后期打印以及宏与V...

么么哒lalala
2016/01/05
66
0
[菜鸟福利]Java学习资源汇总帖

Java入门之视频篇(一)2分钟告诉你什么样的程序是Java程序:http://dwz.cn/wZJKI Java入门之视频篇(二)5分钟从本质了解Java跨平台特性:http://dwz.cn/ytvqw Java入门之视频篇(三)史上最...

马洪伟
2014/12/15
192
0

没有更多内容

加载失败,请刷新页面

加载更多

关于AsyncTask的onPostExcute方法是否会在Activity重建过程中调用的问题

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 本文链接:https://blog.csdn.net/XG1057415595/article/details/86774575 假设下面一种情况...

shzwork
今天
7
0
object 类中有哪些方法?

getClass(): 获取运行时类的对象 equals():判断其他对象是否与此对象相等 hashcode():返回该对象的哈希码值 toString():返回该对象的字符串表示 clone(): 创建并返此对象的一个副本 wait...

happywe
今天
6
0
Docker容器实战(七) - 容器中进程视野下的文件系统

前两文中,讲了Linux容器最基础的两种技术 Namespace 作用是“隔离”,它让应用进程只能看到该Namespace内的“世界” Cgroups 作用是“限制”,它给这个“世界”围上了一圈看不见的墙 这么一...

JavaEdge
今天
8
0
文件访问和共享的方法介绍

在上一篇文章中,你了解到文件有三个不同的权限集。拥有该文件的用户有一个集合,拥有该文件的组的成员有一个集合,然后最终一个集合适用于其他所有人。在长列表(ls -l)中这些权限使用符号...

老孟的Linux私房菜
今天
7
0
面试套路题目

作者:抱紧超越小姐姐 链接:https://www.nowcoder.com/discuss/309292?type=3 来源:牛客网 面试时候的潜台词 抱紧超越小姐姐 编辑于 2019-10-15 16:14:56APP内打开赞 3 | 收藏 4 | 回复24 ...

MtrS
今天
6
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部