文档章节

数据分析学习之路——(一)初衷

Nekyo
 Nekyo
发布于 2017/08/11 21:49
字数 1332
阅读 189
收藏 6

       毕业以来一直在做web系统开发,主要为证券、基金公司等金融公司机构做呼叫中心产品开发,总的来说比较顺风顺水。但是很清楚自己不适合做纯开发工作,再加上对接触的客服业务也几乎不感兴趣,于是想着要改变,年轻多踩点坑没坏处!

       曾经一度想找一份互联网产品经理的工作,但是产品经理工作思维并非是自己私下能学得好的。能把axure、viso、思维导图等软件自学到比较熟练,能写一份比较全面的竞品分析报告,对于一个非互联网行业的人来说私下学习到这样大概就很厉害了吧,但是产品思维却是非实际项目经历不能培养的,任凭看再多文章,看再多报告也是一头雾水。于是就这样放弃了。年初的时候突然冒出进入大数据行业的念头,正好有大学同学也在做机器学习,经交流我就决定入这个坑——数据分析。对于有技术背景的我来讲,这个转型比产品经理容易得多。

       入行数据分析,要掌握哪些技能呢?于是我去拉钩等招聘网站查看数据分析的招聘要求,发现重合得最多的技能要求就是计算机/统计学专业,掌握excel/spass/R等分析工具,掌握mysql/oracle等数据库,会python开发语言。当然更高级一点的是要求掌握大数据工具spark/hadoop,熟悉常见的统计分析方法及模型、算法,数据挖掘等。我根据自己的基础和需求,选择了掌握python的技术型数据分析道路(业务型数据分析在很多企业主要以数据分析运营为主),于是将入门数据分析的技能要求分成几个方面进行学习:统计学概率论知识、python数据获取/清洗/分析、数据库操作(mysql/oracle)、数据分析思维、Excel操作、数据挖掘/机器学习。

       关于学习,每天下班后我只是用双眼盯着看,最多哪里不太理解多去想一想,稍微记下不懂的地方。后来发现这种方式效率太低,过一个月几乎就忘记学过的东西。于是后面我开始制定学习计划,并不要具体到某一天要做些什么,只需要列出最近要学习的内容,然后排日期,每天按照计划去做就行,记住:要记得当天设个时间点提醒任务是否完成。再有就是,我一般每天学习一个章节,晚上我会回顾当天的内容,然后用思维导图的形式将主要的知识点列出来,很有逻辑和层次性。这样不管是加深知识理解,还是以后复习都很有帮助。

统计学概率论知识

       数据分析必须具备的理论知识,主要了解概率、样本/总体、离散/连续型数据的分布、假设检验等相关概念和计算。我通过两本书来学习:《深入浅出统计学》《商务与经济统计》,相对来讲后者作为经典教材,讲解更细致。

python数据获取/清洗/分析

      由于我有两年web开发经验,所以我学习python几乎没什么障碍,在runoob.com看了一下基础语法,从最后的100个例子中选了一部分自己实现就算python入门了。数据分析python用到最多的库是numpy、pandas、scipy和matplotlib,我选择了经典的《利用Python进行数据分析》学习数据分析库的使用。再往后又去学习数据获取——爬虫,并接触了Scrapy爬虫框架,并实践了一个小项目(从链家网爬取数据并分析)。numpy和pandas用来做数据规整和清理,统计分析需要用到scipy库,matplotlib用来进行数据的最基本的可视化;高级可视化可以用basemap,wordcloud等。

数据库操作

       如上所述,工作期间使用oracle,已经掌握了基本操作,因此未安排这方面的学习。

数据分析思维

       关于分析思维说实话我自己都没有,这个要在实际工作中形成。我仅仅是走马观花翻看了一些书,并没有太明显的感触。

Excel操作

      其实excel并不难,只是一些函数和功能的操作问题,熟练了就好。这里推荐个教程 如何快速成为数据分析师?—秦路的回答 ,里面通过6篇文章讲了excel的使用。

数据挖掘/机器学习

      高阶的数据分析过程,我还没有接触,建议指导书籍:《数据挖掘导论》《数据挖掘》《机器学习》《集体编程智慧》等重量书籍。

      以上只是我刚刚准备入门的粗浅理解,数据分析是一门很综合的技能,作为大数据行业的敲门砖还不错的。

© 著作权归作者所有

共有 人打赏支持
Nekyo
粉丝 22
博文 11
码字总数 25764
作品 0
杭州
程序员
深度学习笔记7:Tensorflow入门

欢迎关注天善智能,我们是专注于商业智能BI,人工智能AI,大数据分析与挖掘领域的垂直社区,学习,问答、求职一站式搞定! 对商业智能BI、大数据分析挖掘、机器学习,python,R等数据领域感兴...

天善智能
07/23
0
0
1月11日云栖精选夜读:阿里安全资深专家杭特谈安全圈之“怪现状”

使“数据”自身变得“攻不可破,盗不可用”,才是安全的最终目的。 热点热议 阿里安全资深专家杭特谈安全圈之“怪现状” 作者:华蒙 发表在: 阿里安全 还有这种操作?既是黑客又是居家男的阿...

yq传送门
01/11
0
0
阿里巴巴大数据计算平台MaxCompute(原名ODPS)全套攻略(持续更新20171127)

概况介绍 大数据计算服务(MaxCompute,原名ODPS,产品地址:https://www.aliyun.com/product/odps)是一种快速、完全托管的TB/PB级数据仓库解决方案。MaxCompute向用户提供了完善的数据导入方...

隐林
2017/05/05
0
0
R语言入门:大数据人才缺口巨大,现在学习还不晚

数据时代已经到来,但数据分析、数据挖掘人才却十分短缺,据全球顶尖管理咨询公司麦肯锡(McKinsey)一份详细分析报告显示: 预计到 2018 年,大数据或者数据工作者的岗位需求将激增,其中大...

bjweimengshu
2017/12/15
0
0
我的安全之路——二进制与逆向篇

我的安全之路——二进制与逆向篇 write in my dormitory at ‏‎11:23:35 Saturday, May 20th, 2017 by giantbranch(一个当初想横跨web跟二进制的菜鸡) ————致即将毕业的自己。 上一篇...

u012763794
2017/07/23
0
0

没有更多内容

加载失败,请刷新页面

加载更多

各种开源汇编、反汇编引擎的非专业比较

由于平时业余兴趣和工作需要,研究过并使用过时下流行的各种开源的x86/64汇编和反汇编引擎。如果要对汇编指令进行分析和操作,要么自己研究Intel指令集写一个,要么就用现成的开源引擎。自己...

simpower
20分钟前
3
0
(4)添加vue-router

(4)添加vue-router 1 安装vue-router cnpm install vue-router --save 2 页面准备 新建目录/src/views/common,此目录下面建立4个组件404.vue、home.vue、login.vue、theme.vue。每个文件...

neumeng
23分钟前
2
0
高可用性系统在大众点评的实践与经验

背景 所谓高可用性指的是系统如何保证比较高的服务可用率,在出现故障时如何应对,包括及时发现、故障转移、尽快从故障中恢复等等。本文主要以点评的交易系统的演进为主来描述如何做到高可用...

Skqing
30分钟前
3
0
Network protocols

The network stack does serveral seemingly-impossible things. It does reliable transmission over our unreliable networks, usually without any detactable hiccups. It adapts smooth......

nao
32分钟前
1
0
Android 生命周期方法

1,onCreate(); 2,onStart(); 3,onResume(); //打开页面,前三个方法自动执行 4,onPause(); 5,onStop(); //打开其他页面,前一个页面执行这俩方法 6,onRestart(); //onStart(),onResume //当关闭...

lanyu96
39分钟前
1
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部