文档章节

关于大数据与机器学习,小白和牛人之间的15次典型问答(精华整理)

隐姓埋名啊
 隐姓埋名啊
发布于 2017/04/19 16:20
字数 2186
阅读 212
收藏 2

问:不同的语言在数据处理以及算法计算过程中性能的差别是否很大?

答:就目前的经验来看,使用C或者C++的效率确实要比PYTHON高一些,但是没有差到一个数量级的差别。PYTHON程序的维护成本比C或C++感觉还是要略低一些,在生产中可以考虑用硬件数量进行弥补。

 

问:请问入门机器学习需要哪些基础知识呢?

答:如果想走得远,微积分、概率,这些肯定是跑不了的。 然后就可以是各种聚类分类算法,这部分还是比较好理解的,甚至没有微积分的知识也基本不影响理解。 最后是深度学习的部分,这部分说实话其实还是挺有难度的。

 

问:算法模型是自己建造,还是有专家开源

答: 开源的工具能解决很多问题,算法一般不用调整。但是不排除你在优化的时候根据自己的需求做修改。

 

问:目前机器学习进行到了哪个阶段? 对于软件功能的自动化测试,是否可以让机器人自己学习需求,根据设计文档来进行测试?

答:理论上确实是可行的。 不过对设计文档进行特征化的过程恐怕是个非常不确定的过程。 问题一、设计文档的标准化问题是不是做到位了?问题二、有多少样本来供训练?

训练是一个监督学习的过程,要把“文档”和“对应的测试行为”这样的关联告诉学习引擎才可以。

 

问:数学基础对后面的学习很重要么?我是个高数很渣的java程序员

答:数学基础对后面还是比较重要的,很多书籍里讲解算法都有数学公式推导,至少需要能看懂公式是什么意思

 

问:在学习前是否要复习下微积分、概率论知识?

答:边学技术边复习数学知识就行,遇到问题再去学习,不用刻意先复习一遍。

 

问:我做了5年的Web开发。现在就职的公司不大,数据量也才百万级。我想知道您对数据分析的理解和如何正确利用数据分析得到的结果。我想在大数据方向有所发展,希望能在学习路线上给点建议。

答:大数据的真实含义不是数据量大,而是具有丰富的数据维度。数据的价值不在于多在于能够挖掘出有价值的信息从而消除不确定性,降低试错成本。

很大一部分的数据分析是有试探性的,日常的工作中更多的是做指标涨跌的关联分析,分析好这些已经能为公司解决很多问题了。

其它方面的应用其实不一定在每个公司里都有机会去做,比如推荐系统(典型的机器学习应用场景),如果你的数据维度不足够支撑,或者业务形态不是面向大众的,那很可能无法成行。
学习路线你可以看一下这篇文章:https://my.oschina.net/ijj/blog/878119

 

问:公司数据分析人员如何转入大数据?

答:先学一门容易入门的语言 R 或者pyhton,掌握基础后再使用它们处理数据、分析数据,我觉得这种对你切入比较容易。

 

问:我从事两年JavaWeb最近想转大数据这块,请问有什么直观的入门指引呢?

答:入门指引的话,不妨关注一下《Hadoop大数据实战手册》这里面对大数据和Hadoop生态圈做了比较详细的介绍,用来入门很不错。 我个人认为,在大数据这个领域还是要跟个人结合,扬长避短,对于是具体做可视化,工程应用,还是分析,这个还是要看个人是否擅长和喜欢。

 

分享一套17年最新Hadoop大数据教程和100道Hadoop大数据必会面试题。

因为链接经常被和谐,需要的朋友请 加微信 ganshiyun666 来获取最新下载链接,注明“OSC”

教程已帮助300+人成功转型Hadoop开发,90%起薪超过20K,工资比之前翻了一倍。百度Hadoop核心架构师亲自录制.

内容包括0基础入门、Hadoop生态系统、真实商业项目实战3大部分。其中商业案例可以让你接触真实的生产环境,训练自己的开发能力。

 

问:我目前主要是做一些数据统计的工作,想要往推荐系统方向发展,这块儿我该怎么学习呢?

答:推荐系统现在用的比较多的是SVM算法或协同过滤等。 这个内容在我看来其实还是贝叶斯信念网络的延伸或变种,可以看一些关于推荐系统方面的专著。

 

问:业界采用的大数据解决方案有哪些?

答:现在的框架相对比较成熟的有hadoop,这是做离线处理的; spark可以做离线处理和准实时处理; storm,这是做实时处理的; mahout,spark mllib,离线机器学习; scikit-learn,离线机器学习; tensorflow,torch深度学习。 除此之外还有很多框架,解决方案也是使用这些工程与其它一些开源产品做组合。

 

问:个人对大数据没有太多的了解,主观地认为现在的大数据都基本是以Hadoop为核心,综合其他技术,如HBase, Hive等,根据行业实际建立相应的分析模型,但不知实施大数据项目时,在不同的行业中有没有标准的技术路线以及标准的架构呢?

我个人认为不要过于纠结这些。大数据的边界怎么划分会长期没有定义,不过有一点是确定的,就是一个人工作的价值。 一个人工作的价值是否能够帮助公司或者客户提高效率,消除不确定性,减小试错成本,找出好的改进方向,这些才是价值所在。 至于某一个工具都是有适用场景的,在不同项目里进行有侧重的选择使用就可以了。

 

问:个人对大数据的理解就是历史数据产生了很多,然后多表查询时效率很慢,怎么用一些缓存或数据库中间件解决性能的事?

答:如果单纯从你说的这个场景来看,应该属于海量数据存储的研究范畴。 大部分都是用类似分布式存储、表分区、索引、压缩存储等手段进行解决。 这个应该不属于大数据研究的重点。

 

问:机器学习有哪些最新的理论知识?如果要实现机器学习,业界是否有成熟的开源方案?

答:最新的理论知识多用google进行相关论文的查询,更新还是比较快的。

机器学习开源方案有不少,我们用的是scikit-learn,是python语言的框架,已经能解决不少问题了。

 

问:在大数据领域,机器学习首先应该是有足够多的数据来支撑其运算吧,但其实很多现实是数据量并没有到达那个级别,或者数据维度还有许多尚不被我们所认知。所以,有没有一个相对清晰的分界线,哪些情况下就可以使用机器学习,哪些还不足够呢?

答:在神经网络出现之前,对于特征抽取比较准确,解释比较清晰的领域都是可以使用机器学习的。 在神经网络出现之后,尤其是卷积神经网络出现之后,对于模式识别方面的加强是令人瞩目的。很多原来使用随机森林或者SVM都无法处理得很好的模式识别问题都有了进展。 如果一定要划界限的话,我想可以从特征提取的难易程度上来做划分。如果特征很难提取,甚至特征完全不明确,则十有八九在机器学习过程中得不到令人满意的模型解

© 著作权归作者所有

隐姓埋名啊
粉丝 155
博文 14
码字总数 33627
作品 0
架构师
私信 提问
关于大数据与机器学习,小白和牛人之间的15个典型问答(精华整理)

问:不同的语言在数据处理以及算法计算过程中性能的差别是否很大? 答:就目前的经验来看,使用C或者C++的效率确实要比PYTHON高一些,但是没有差到一个数量级的差别。PYTHON程序的维护成本比...

隐姓埋名啊
2017/04/19
508
1
小白和牛人之间的这15个问答,让你知道该怎么学习大数据

问:不同的语言在数据处理以及算法计算过程中性能的差别是否很大? 答:就目前的经验来看,使用C或者C++的效率确实要比PYTHON高一些,但是没有差到一个数量级的差别。PYTHON程序的维护成本比...

隐姓埋名啊
2017/04/21
1K
3
《深度学习500问》,一份深度学习面试必备资料

今天,营长要给大家推荐一本还未完成的深度学习书籍——《深度学习500问》。为什么要推荐一本未完成的书? 首先,这本书的作者是通过问答的形式,对常用的概率知识、线性代数、机器学习、深度...

AI科技大本营
2018/10/27
0
0
GitHub 近两万 Star!深度学习 500 问带你入门人工智能!| 技术头条

作者 | 非主流、Jane 出品 | CSDN AI 科技大本营(ID:rgznai100) 今天,笔者要给大家推荐一本尽管尚未完结但在 GitHub 上却深受欢迎,已经获得近两万 Star 的深度学习书籍——《深度学习 ...

CSDN资讯
03/20
0
0
腾讯AI Lab负责人张潼离职,张正友或接替其位

来源 | 网易智能 刚刚,据知情人士透露,腾讯人工智能实验室 AI Lab 主任张潼已经从腾讯离职,未来将重返学术界。 关于该消息,腾讯方面目前尚无回应。 网易智能独家获悉,AI Lab接手人是机器...

AI科技大本营
01/03
0
0

没有更多内容

加载失败,请刷新页面

加载更多

OSChina 周四乱弹 —— 当你简历注水但还是找到了工作

Osc乱弹歌单(2019)请戳(这里) 【今日歌曲】 @花间小酌 :#今日歌曲推荐# 分享成龙的单曲《男儿当自强》。 《男儿当自强》- 成龙 手机党少年们想听歌,请使劲儿戳(这里) @hxg2016 :刚在...

小小编辑
今天
2.9K
22
靠写代码赚钱的一些门路

作者 @mezod 译者 @josephchang10 如今,通过自己的代码去赚钱变得越来越简单,不过对很多人来说依然还是很难,因为他们不知道有哪些门路。 今天给大家分享一个精彩的 GitHub 库,这个库整理...

高级农民工
昨天
5
0
用好项目管理工具,人人都可以成为项目经理

现在市面上的项目管理工具越来越多了,但是大多数都是一些协同工具或轻量项目管理工具。如果是多团队、跨部门使用或者企业级的项目管理,从管理思想到工具运用,需要适应企业的业务流程体系,...

cs平台
昨天
12
0
只需一步,在Spring Boot中统一Restful API返回值格式与统一处理异常

统一返回值 在前后端分离大行其道的今天,有一个统一的返回值格式不仅能使我们的接口看起来更漂亮,而且还可以使前端可以统一处理很多东西,避免很多问题的产生。 比较通用的返回值格式如下:...

晓月寒丶
昨天
69
0
区块链应用到供应链上的好处和实际案例

区块链可以解决供应链中的很多问题,例如记录以及追踪产品。那么使用区块链应用到各产品供应链上到底有什么好处?猎头悬赏平台解优人才网小编给大家做个简单的分享: 使用区块链的最突出的优...

猎头悬赏平台
昨天
32
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部