文档章节

哪些数据科学技能是雇主所需要的

雪晴数据
 雪晴数据
发布于 2016/01/13 12:54
字数 1676
阅读 8
收藏 0

这是一个好消息,如果你希望在2016年找一份数据科学的工作—在该领域职位空缺的数量正在不断增加,企业希望利用大数据来获得竞争优势。但事实上,找一份梦寐以求的数据科学工作就意味着你要具备一些技能的组合,你可能会惊讶学习哪些技能是雇主所最需要的。

最近,人们在CrowdFlower上针对Linkedin的3490个数据科学职位做了分析,并对最常出现的21个技能进行了排序。有些结果并不那么令人惊讶—SQL排在最前,而其它的结果可能是数据科学领域不断发展的领先指标。

如上所述,SQL是最常见的技能,在Linkedin发布的所有数据科学工作中占比达到了57%。Hadoop排在第二,占比49%。这并不出乎CrowdFlower公司CEO和创始人Lukas Biewald的意料。CrowdFlower是美国硅谷一家从事众包数据处理的公司。

“SQL和Hadoop排在前两位并没什么惊讶的,因为它们本身就是存储数据的技术”Biewald告诉Datanami(本文转译自该网站)。“每个数据科学家必须知道如何获取数据。如果你不知如何获取数据,那你什么都做不了。”

在所有数据科学的招聘信息中,python是排在第三名的技能。在CrowdFlower去年关于数据科学家哪些技能是最重要的调查中,python排在R的后面。但在本次招聘信息的调查中(这无疑是更具有前瞻性的范围),python作为数据科学的一项关键性技能占比达到了39%。相比之下,R是32%。

相比R来说,为什么现在越来越多的雇主正在寻找具备python技能的数据科学家?Biewald提出了自己的看法:“python的工具集越来越好。已经有很多基于python的统计工具”。“还有一个认识是数据科学不仅仅是统计学”

设想一下,数据科学家80%的时间花费在数据清理和数据准备上,而只有20%的时间是用来做分析。这或许可以解释python突然出现的原因。

“我认为Python是做数据清理的语言,而R是做分析的”,Biewald说到。在创办CrowdFlower之前,他负责领导Yahoo的搜索相关团队。“由于数据科学更多的是做数据清洗和准备,python正变得越来越重要。它无疑是将数据整理成适合做分析的数据格式最好的语言”

事实上,Java排在第四位让人有点摸不着头脑。因为Java本身不是数据科学所要求的掌握一门语言,当你在java中写Hadoop的时候,它的高配就显得有道理了。其它跟Hadoop相关的工具都排在前10,包括Hive(31%),MapReduce(22%)和Pig(16%)。

对于这份CrowdFlower从Linkedin编辑过来的职位列表,多少有些遗漏。Apache Spark,在上面给出的数据科学技能要求中没有出现过。Scala也没有出现过,它是在Spark框架内处理数据的主要途径之一。

这可能是因为Spark还比较前沿,大家对它知之甚少。“现在周围对它有很多炒作,但可能还是太早了”Biewald说到。“在CrowdFlower,我们已经开始使用它了。我认为这门技术很棒,但在企业真正使用它的时候会有些滞后”。

Spark和Scala可能是数据科学的未来(它们在Alphabet[NASDAQ:GOOGL]公司中得到大力支持,硅谷的许多高科技公司也在广泛的使用它们)。但不是每个数据科学项目或团队都需要走在技术的最前沿才能实现他们的大数据成果。“令人惊讶的是现在很多人都在寻找数据科学家,但是我认为他们中的很多人是不想走在最前沿的”Biewald说到。

这份CrowdFlower列表中包含了许多知名的数据分析工具,包括SAS(占比16%),SPSS(10%),Matlab(10%)和Stata(占比3%)。Biewald认为这些工具仍是有价值的并且在未来一段时间内还会继续使用。但是他希望它们的市场份额逐渐被那些专门为大数据设计的新工具所夺走。

“数据科学的角色大于统计学家”他说。“在我们的脑海里,这些旧的语言更多的是建立在统计学家的基础上,它们只是对少量的数据进行分析。而排名在前的Hadoop,python和Java则可以运行TB级的数据。你可以用SAS,SPSS,Matlab来做大数据分析,但这不是它们设计的目的”。

不是每个人都同意“数据科学”或“数据科学家”应该做什么以及应该掌握什么样技能的定义。事实上,一些人反对使用术语“科学”,而宁愿用诸如“应用统计”的短语。(想起了哈佛商业评论称应用统计学家是21世纪最性感的职业)

但在Biewald和其他人眼中,处理数据的能力和统计分析的能力同等重要。这就是他对数据科学家进一步给出的定义。

“在过去,我们处理几千条记录的时候不是特别难。但是,当数据量达到数十亿条记录的时候我们就需要真本事来得到一个规范的格式,以便我们进一步做回归或机器学习”他说。“对于这种情况,我想要聘请的是一名掌握python或者是C、Perl、Ruby亦或是一门更多做数据处理而不是做数据分析的语言的数据科学家”

本文由雪晴数据网负责翻译整理,原文请参考What Data Science Skills Employers Want Now作者Alex Woodie。转载请注明原文链接http://www.xueqing.cc/cms/article/110

© 著作权归作者所有

雪晴数据
粉丝 1
博文 21
码字总数 16892
作品 0
海淀
私信 提问
纳入中国高考,Python成为"超流量"语言!

  【IT168 资讯】飞速发展的技术,让所有软件开发人员,工程师以及其它技术人员不得不时刻神经紧绷,努力学习,从而保证始终走在技术的前端。到底哪些工作岗位更受欢迎呢?   对于雇主来说...

it168网站
2017/12/13
0
0
用数据讲故事的黄金时代 数据人才不可或缺

  不管是从商业还是政府大数据的角度来说,中国都已经成为名副其实的“数据大国”。到2020年,中国的全球数据占比将达到18%,超越美国成为世界第一。但数据大国不等于数据强国。数据强国最...

大数据头条
2017/12/11
0
0
你愿意成为一名全栈设计师吗?

了解全栈术语不仅有利于帮助我们确定自己的头衔,而且对那些在项目的任意阶段进入成为团队成员提供极大的帮助。或者使用技能提前规划我们的主要工作重点可能是什么(现在已经达到的一个共识是...

oschina
2015/07/21
8K
45
调查发现,掌握 Python 是数据科学家最应具备的技能

据 ithome 消息,Joblift 调查了过去 12 个月 8672 个数据科学家的职缺,依照职缺所提及的技能需求统计出,成为一名抢手的数据科学家应该拥有那些硬实力和软实力。不出意外地,数据科学家需要...

王练
2018/02/20
1K
4
有前途的人工智能大数据分析相关职业:Python数据科学入门之路

为什么学习Python数据科学? Python是数据科学职业所需的宝贵技能之一。Python是数据科学的首选编程语言。 2016年,它超越了R on Kaggle,这是数据科学竞赛的首选平台。 2017年,它在KDNugge...

python测试开发人工智能安全
02/14
0
0

没有更多内容

加载失败,请刷新页面

加载更多

Python猫荐书系列之七:Python入门书籍有哪些?

本文原创并首发于公众号【Python猫】,未经授权,请勿转载。 原文地址:https://mp.weixin.qq.com/s/ArN-6mLPzPT8Zoq0Na_tsg 最近,猫哥的 Python 技术学习群里进来了几位比较特殊的同学:一...

豌豆花下猫
27分钟前
2
0
一、容器(Containers)

在容器模型中,容器大致类似于VM。他们的主要不同之处在于,每个容器不需要自己完整的操作系统。事实上,所有单个主机上的容器共享整个操作系统。这就释放了大量的系统资源,如CPU、RAM和存储...

倪伟伟
36分钟前
3
0
Guava RateLimiter限流源码解析和实例应用

在开发高并发系统时有三把利器用来保护系统:缓存、降级和限流 缓存 缓存的目的是提升系统访问速度和增大系统处理容量 降级 降级是当服务出现问题或者影响到核心流程时,需要暂时屏蔽掉,待高...

算法之名
39分钟前
7
0
国产达梦数据库与MySQL的区别

背景 由于项目上的需要,把项目实现国产化,把底层的MySQL数据库替换为国产的达梦数据库,花了一周的时间研究了国产的数据库-达梦数据库,它和MySQL有一定的区别,SQL的写法也有一些区别。 ...

TSMYK
49分钟前
1
0
老也有错?35岁程序员是一道坎,横亘在每个技术职场人的心中

随着互联网的高速发展变革,大龄恐惧症越来越多地在技术圈被人讨论。很多程序员在工作5-10年以后,都会开始思考5年、10年甚至更久以后的自己,会是怎样一种生活工作状态,以及是否会被时代抛...

我最喜欢三大框架
55分钟前
2
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部