文档章节

数据分析学习之路——(一)初衷

Nekyo
 Nekyo
发布于 2017/08/11 21:49
字数 1332
阅读 181
收藏 6

       毕业以来一直在做web系统开发,主要为证券、基金公司等金融公司机构做呼叫中心产品开发,总的来说比较顺风顺水。但是很清楚自己不适合做纯开发工作,再加上对接触的客服业务也几乎不感兴趣,于是想着要改变,年轻多踩点坑没坏处!

       曾经一度想找一份互联网产品经理的工作,但是产品经理工作思维并非是自己私下能学得好的。能把axure、viso、思维导图等软件自学到比较熟练,能写一份比较全面的竞品分析报告,对于一个非互联网行业的人来说私下学习到这样大概就很厉害了吧,但是产品思维却是非实际项目经历不能培养的,任凭看再多文章,看再多报告也是一头雾水。于是就这样放弃了。年初的时候突然冒出进入大数据行业的念头,正好有大学同学也在做机器学习,经交流我就决定入这个坑——数据分析。对于有技术背景的我来讲,这个转型比产品经理容易得多。

       入行数据分析,要掌握哪些技能呢?于是我去拉钩等招聘网站查看数据分析的招聘要求,发现重合得最多的技能要求就是计算机/统计学专业,掌握excel/spass/R等分析工具,掌握mysql/oracle等数据库,会python开发语言。当然更高级一点的是要求掌握大数据工具spark/hadoop,熟悉常见的统计分析方法及模型、算法,数据挖掘等。我根据自己的基础和需求,选择了掌握python的技术型数据分析道路(业务型数据分析在很多企业主要以数据分析运营为主),于是将入门数据分析的技能要求分成几个方面进行学习:统计学概率论知识、python数据获取/清洗/分析、数据库操作(mysql/oracle)、数据分析思维、Excel操作、数据挖掘/机器学习。

       关于学习,每天下班后我只是用双眼盯着看,最多哪里不太理解多去想一想,稍微记下不懂的地方。后来发现这种方式效率太低,过一个月几乎就忘记学过的东西。于是后面我开始制定学习计划,并不要具体到某一天要做些什么,只需要列出最近要学习的内容,然后排日期,每天按照计划去做就行,记住:要记得当天设个时间点提醒任务是否完成。再有就是,我一般每天学习一个章节,晚上我会回顾当天的内容,然后用思维导图的形式将主要的知识点列出来,很有逻辑和层次性。这样不管是加深知识理解,还是以后复习都很有帮助。

统计学概率论知识

       数据分析必须具备的理论知识,主要了解概率、样本/总体、离散/连续型数据的分布、假设检验等相关概念和计算。我通过两本书来学习:《深入浅出统计学》《商务与经济统计》,相对来讲后者作为经典教材,讲解更细致。

python数据获取/清洗/分析

      由于我有两年web开发经验,所以我学习python几乎没什么障碍,在runoob.com看了一下基础语法,从最后的100个例子中选了一部分自己实现就算python入门了。数据分析python用到最多的库是numpy、pandas、scipy和matplotlib,我选择了经典的《利用Python进行数据分析》学习数据分析库的使用。再往后又去学习数据获取——爬虫,并接触了Scrapy爬虫框架,并实践了一个小项目(从链家网爬取数据并分析)。numpy和pandas用来做数据规整和清理,统计分析需要用到scipy库,matplotlib用来进行数据的最基本的可视化;高级可视化可以用basemap,wordcloud等。

数据库操作

       如上所述,工作期间使用oracle,已经掌握了基本操作,因此未安排这方面的学习。

数据分析思维

       关于分析思维说实话我自己都没有,这个要在实际工作中形成。我仅仅是走马观花翻看了一些书,并没有太明显的感触。

Excel操作

      其实excel并不难,只是一些函数和功能的操作问题,熟练了就好。这里推荐个教程 如何快速成为数据分析师?—秦路的回答 ,里面通过6篇文章讲了excel的使用。

数据挖掘/机器学习

      高阶的数据分析过程,我还没有接触,建议指导书籍:《数据挖掘导论》《数据挖掘》《机器学习》《集体编程智慧》等重量书籍。

      以上只是我刚刚准备入门的粗浅理解,数据分析是一门很综合的技能,作为大数据行业的敲门砖还不错的。

© 著作权归作者所有

共有 人打赏支持
Nekyo
粉丝 21
博文 11
码字总数 25764
作品 0
杭州
程序员
深度学习笔记7:Tensorflow入门

欢迎关注天善智能,我们是专注于商业智能BI,人工智能AI,大数据分析与挖掘领域的垂直社区,学习,问答、求职一站式搞定! 对商业智能BI、大数据分析挖掘、机器学习,python,R等数据领域感兴...

天善智能
07/23
0
0
阿里巴巴大数据计算平台MaxCompute(原名ODPS)全套攻略(持续更新20171127)

概况介绍 大数据计算服务(MaxCompute,原名ODPS,产品地址:https://www.aliyun.com/product/odps)是一种快速、完全托管的TB/PB级数据仓库解决方案。MaxCompute向用户提供了完善的数据导入方...

隐林
2017/05/05
0
0
1月11日云栖精选夜读:阿里安全资深专家杭特谈安全圈之“怪现状”

使“数据”自身变得“攻不可破,盗不可用”,才是安全的最终目的。 热点热议 阿里安全资深专家杭特谈安全圈之“怪现状” 作者:华蒙 发表在: 阿里安全 还有这种操作?既是黑客又是居家男的阿...

yq传送门
01/11
0
0
我的安全之路——二进制与逆向篇

我的安全之路——二进制与逆向篇 write in my dormitory at ‏‎11:23:35 Saturday, May 20th, 2017 by giantbranch(一个当初想横跨web跟二进制的菜鸡) ————致即将毕业的自己。 上一篇...

u012763794
2017/07/23
0
0
R语言入门:大数据人才缺口巨大,现在学习还不晚

数据时代已经到来,但数据分析、数据挖掘人才却十分短缺,据全球顶尖管理咨询公司麦肯锡(McKinsey)一份详细分析报告显示: 预计到 2018 年,大数据或者数据工作者的岗位需求将激增,其中大...

bjweimengshu
2017/12/15
0
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

困扰当前数据中心管理的三大难题

导读 当企业发展到一定程度,或者之前的机房不能满足现在的数据中心使用时,企业会对数据中心进行迁移。那么在数据中心进行迁移的时候会遇到哪些风险呢?针对这些风险我们应该做出怎样的措施来...

问题终结者
刚刚
0
0
设计模式:工厂方法模式(工厂模式)

工厂方法模式才是真正的工厂模式,前面讲到的静态工厂模式实际上不能说是一种真正意义上的设计模式,只是一种变成习惯。 工厂方法的类图: 这里面涉及到四个种类: 1、抽象产品: Product 2、...

京一
17分钟前
0
0
区块链和数据库,技术到底有何区别?

关于数据库和区块链,总会有很多的困惑。区块链其实是一种数据库,因为他是数字账本,并且在区块的数据结构上存储信息。数据库中存储信息的结构被称为表格。但是,区块链是数据库,数据库可不...

HiBlock
24分钟前
0
0
react native 开发碰到的问题

react-navigation v2 问题 问题: static navigationOptions = ({navigation, navigationOptions}) => ({ headerTitle: ( <Text style={{color:"#fff"}}>我的</Text> ), headerRight: ( <View......

罗培海
31分钟前
0
0
Mac Docker安装流程

久仰Docker大名已久,于是今天趁着有空,尝试了一下Docker 先是从docker的官网上下载下来mac版本的docker安装包,安装很简易,就直接拖图标就好了。 https://www.docker.com/products/docker...

writeademo
39分钟前
0
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部