文档章节

数据科学初学者九种常见错误

乱蓬头
 乱蓬头
发布于 2017/07/04 14:17
字数 983
阅读 4
收藏 0
点赞 0
评论 0

摘要: 当开始进入数据科学领域时,我们可能会犯一些错误。本文罗列了9种初学者常见的错误,并提出避免犯错的建议。

更多深度文章,请关注:https://yq.aliyun.com/cloud

如果你想开始一个数据科学方面的职业,你可以通过避免这9个会使你付出高代价的初学者错误来免去几天,几个星期甚至几个月的挫折。

如果你不仔细,这些错误将会消耗你最宝贵的资源:你的时间、精力和动力。

我们将它们分为三类:

 

  • 学习数据科学时的错误
  • 求职时的错误
  • 求职面试中的错误

 

8abe7275a6210ee03253521786380a0f8d4b67b1

学习数据科学

第一组错误是“隐蔽的”,很难发现。没有丝毫的预兆,它们如同温水煮青蛙般耗尽你的时间和精力,并且它们产生的误解围绕这个领域。

1.花费太多时间在理论上

许多初学者陷入了花费太多时间在理论上的陷阱,无论是数学相关(线性代数,统计学等)还是机器学习相关的(算法,派生等)。

这种方法效率低下有三个主要原因:

 

  • 首先,这是缓慢而艰巨的。如果你曾经被所有要学的东西压垮,那么你很有可能陷入了这个陷阱。
  • 第二,你也不会保留这些概念。数据科学是一个应用领域,而巩固技能的最好方法是实践。
  • 最后,还有一个更大的风险就是如果你不明白你所学的东西与现实内容有什么联系,那么你会变得消极然后放弃。

 

传统上这种重理论的方法在学术界中传授,但大多数从业者可以从更注重结果的观念中受益。

为了避免这个错误:

 

  • 平衡你的研究和你实践的项目。
  • 学会适应局部知识。当你进步的时候,你自然会填补空白。
  • 了解每一部分如何适应大局(包括在我们免费7天速成课程)。

 

2.从头开始编写太多的算法

下一个错误也会导致学生片面重视局部而忽略了整体。一开始你真的不需要从头开始编写每个算法。

虽然为了学习而实现一些这么做很好,但现实是算法正在成为商品。由于成熟的机器学习库和基于云的解决方案,大多数从业者实际上从不从头编写代码。

今天,了解如何在正确的设置(以正确的方式)中应用正确的算法更为重要。

为了避免这个错误:

 

 

3.急于深入更高的层次

有些人进入这个领域是因为他们想要构建未来的技术:自驾车,高级机器人,计算机视觉等。 这些技术由深度学习和自然语言处理等技术所驱动。

但是,掌握基本原理很重要。 一口吃不成胖子。每个奥运潜水员都需要先学习如何游泳,那么你也应该如此。

为了避免这个错误:

 

  • 首先掌握“经典”机器学习的技术和算法,以此作为高级课题的基石。
  • 要知道经典机器学习仍然具有惊人的潜力。虽然算法已经成熟,但我们仍然处于发现使用富有成效的方法的早期阶段。

本文转载自:http://click.aliyun.com/m/24905/

共有 人打赏支持
乱蓬头
粉丝 0
博文 382
码字总数 2595
作品 0
初入数据科学职业时,要避免的9个错误

如果你想要在数据科学方向发展,避免这9个代价不菲的初学者错误,你能够免去数天,数周甚至数月的受挫。 如果您不小心,这些错误将会消耗您最宝贵的资源:您的时间,精力和动力。 我们将它们...

Datartisan
2017/10/19
0
0
业界 | 数据科学家要先学逻辑回归?图样图森破!

     大数据文摘编译作品   编译:王梦泽、笪洁琼 、夏雅薇   逻辑回归的结果很难解读,在真实的商业环境中考虑到你要跟你的老板或同事解释模型的时候,有可能自己都无法解释清楚,所...

大数据文摘
05/29
0
0
如何入手数据科学竞赛——以kaggle为例

感谢关注天善智能,走好数据之路↑↑↑ 欢迎关注天善智能,我们是专注于商业智能BI,人工智能AI,大数据分析与挖掘领域的垂直社区,学习,问答、求职一站式搞定! 对商业智能BI、大数据分析挖...

天善智能
05/17
0
0
Kaggle入门手册

Kaggle是数据科学竞赛的热门平台,它可能会让初学者陷入困境。 毕竟,一些比赛有超过100万美元奖池和数百个竞争对手。 顶尖的团队拥有数十年的综合经验,处理有挑战的问题,如改善机场安全或...

Datartisan
2017/11/09
0
0
数据科学的5个常见误解,看完想走弯路都难

  【IT168 资讯】尽管大数据、机器学习和预测分析带来了巨大的好处,但数据科学对于各种规模的企业来说,仍然是一个的敏感话题。很多人不仅不愿意采用相关的系统和硬件,而且在转型时,在收...

it168网站
2017/12/29
0
0
借助开源项目,学习软件开发

《借助开源项目,学习软件开发》是由 @庄表伟 发起的一个开源项目。这个项目不是程序,不是代码,而是一份文档,一份帮助开发者学习软件开发的文档。 这份文档面向软件开发初学者的文档,所谓...

虫虫
2012/03/22
4.3K
20
借助开源项目,学习软件开发

这是一份面向软件开发初学者的文档,所谓初学者,可以定义为:学过的语言不超过2种,在已经学过的语言技能方面,能够完成课程上的大部分习题。从高校教育 的通常情况来说,基本能够完成老师布...

庄表伟
2012/03/21
6.7K
1
十步制胜 Kaggle 数据科学竞赛

本文由伯乐在线 -古月水语 翻译,sunshinebuel 校稿。未经许可,禁止转载! 英文出处:Yanir Seroussi。欢迎加入翻译组。 Kaggle 是一个领先的数据科学比赛平台,由最初的 KDD 和 Netflix 以...

伯乐在线
2016/05/09
0
0
三张图读懂机器学习:基本概念、五大流派与九种常见算法

引言 “机器学习正在进步,我们似乎正在不断接近我们心中的人工智能目标。语音识别、图像检测、机器翻译、风格迁移等技术已经在我们的实际生活中开始得到了应用,但机器学习的发展仍还在继续...

z4a9gx
2017/12/06
0
0
比PCA降维更高级——(R/Python)t-SNE聚类算法实践指南

首发地址:https://yq.aliyun.com/articles/70733 更多深度文章,请关注:https://yq.aliyun.com/cloud 作者介绍:Saurabh.jaju2 Saurabh是一名数据科学家和软件工程师,熟练分析各种数据集和...

uncle_ll
2017/07/12
0
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

idea tomcat 远程调试

tomcat 配置 编辑文件${tomcat_home}/bin/catalina.sh,在文件开头添加如下代码。    CATALINA_OPTS="-Xdebug -Xrunjdwp:transport=dt_socket,server=y,suspend=n,address=7829" Idea端配......

qwfys
今天
1
0
遍历目录下的文件每250M打包一个文件

#!/usr/bin/env python # -*- utf-8 -*- # @Time : 2018/7/20 0020 下午 10:16 # @Author : 陈元 # @Email : abcmeabc@163.com # @file : tarFile.py import os import tarfile import thr......

寻爱的小草
今天
1
0
expect同步文件&expect指定host和要同步的文件&构建文件分发系统&批量远程执行命令

20.31 expect脚本同步文件 expect通过与rsync结合,可以在一台机器上把文件自动同步到多台机器上 编写脚本 [root@linux-5 ~]# cd /usr/local/sbin[root@linux-5 sbin]# vim 4.expect#!/...

影夜Linux
今天
1
0
SpringBoot | 第九章:Mybatis-plus的集成和使用

前言 本章节开始介绍数据访问方面的相关知识点。对于后端开发者而言,和数据库打交道是每天都在进行的,所以一个好用的ORM框架是很有必要的。目前,绝大部分公司都选择MyBatis框架作为底层数...

oKong
今天
13
0
win10 上安装解压版mysql

1.效果 2. 下载MySQL 压缩版 下载地址: https://downloads.mysql.com/archives/community/ 3. 配置 3.1 将下载的文件解压到合适的位置 我最终将myql文件 放在:D:\develop\mysql 最终放的位...

Lucky_Me
今天
2
0
linux服务器修改mtu值优化cpu

一、jumbo frames 相关 1、什么是jumbo frames Jumbo frames 是指比标准Ethernet Frames长的frame,即比1518/1522 bit大的frames,Jumbo frame的大小是每个设备厂商规定的,不属于IEEE标准;...

问题终结者
今天
2
0
expect脚本同步文件expect脚本指定host和要同步的文件 构建文件分发系统批量远程执行命令

expect脚本同步文件 在一台机器上把文件同步到多台机器上 自动同步文件 vim 4.expect [root@yong-01 sbin]# vim 4.expect#!/usr/bin/expectset passwd "20655739"spawn rsync -av ro...

lyy549745
今天
1
0
36.rsync下 日志 screen

10.32/10.33 rsync通过服务同步 10.34 linux系统日志 10.35 screen工具 10.32/10.33 rsync通过服务同步: rsync还可以通过服务的方式同步。那需要开启一个服务,他的架构是cs架构,客户端服务...

王鑫linux
今天
1
0
matplotlib 保存图片时的参数

简单绘图 import matplotlib.pyplot as pltplt.plot(range(10)) 保存为csv格式,放大后依然很清晰 plt.savefig('t1.svg') 普通保存放大后会有点模糊文件大小20多k plt.savefig('t5.p...

阿豪boy
今天
3
0
java 8 复合Lambda 表达式

comparator 比较器复合 //排序Comparator.comparing(Apple::getWeight);List<Apple> list = Stream.of(new Apple(1, "a"), new Apple(2, "b"), new Apple(3, "c")) .collect(......

Canaan_
昨天
1
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部