文档章节

统计分析/机器学习吐血整理最强指南

小叮当_加V
 小叮当_加V
发布于 2017/03/21 17:39
字数 3134
阅读 227
收藏 0

这篇文章的初衷是因为经常逛论坛、知乎或者在微信群的时候,都会遇到有朋友问,如果想学习统计分析或者机器学习有什么推荐的资料,因此浩彬老撕根据自己的经验和数据分析专家的建议总结了一个学习清单。其实我们都有过转发某类文章,然后可以下载一大堆资料的经历。但问题是这些材料我们下载后就一直放在那其实一直都没有看过的。

 

#关于这份学习清单#

我会按照基础到入门给出详细推荐,并且附上个人点评。同时尽量做到各个资料在内容上并不重复(即使内容上有重复,也会在难度上做出区分),希望可以以最直接的方式告诉大家应该怎么选择。

Ps:这是第一版学习指南,由于最近时间比较紧张,预计在第二版中会加入业务材料的推荐和更多的学习索引,欢迎关注。

 

1

先验知识                        

 

由于统计学概率论甚至到机器学习会对数学基础有一定要求,所以这里给出一些先验知识的内容推荐,主要是矩阵方面。

1.1   课程

可汗学院公开课:线性代数课程

http://open.163.com/special/Khan/linearalgebra.html

因为网易公开课有翻译,这里是中文字幕课程链接,这里真要给网易100个赞,字幕做得很好。

“可汗学院(Khan Academy),是由孟加拉裔美国人萨尔曼·可汗创立的一家教育性非营利组织,主旨在于利用网络影片进行免费授课,现有关于数学、历史、金融、物理、化学、生物、天文学等科目的内容,教学影片超过2000段,机构的使命是加快各年龄学生的学习速度。”

 

1.2 参考书籍

(1)线性代数  豆瓣评分7.3


清华居余马老师的线性代数教材,比较经典的教材了,里面的知识足够支撑我们后续统计分析和机器学习需要。

 

(2)高等代数 豆瓣评分8.1

相比于线性代数,高等代数更加深入,一般线性代数为非数学专业所用,数学类专业一般学习高等代数。不过一般情况下,线性代数也足够使用了。

 

当然,在后续学习中有些算法也会用到微积分的知识,但是都比较基础,因此遇到不懂的时候直接查资料即可,就没有特定推荐材料了。

 

 

 

2

统计分析学习资料          

 

2.1 统计学/概率课程

同样推荐可汗学院的统计学和概率课程,而且刚好这两门课程也被网易公开课进行了翻译:

(1)  可汗学院公开课:统计学

http://open.163.com/special/Khan/khstatistics.html

(2)  可汗学院公开课:概率

http://open.163.com/special/Khan/probability.html

 
这两本课程总体不算太难,适合入门。个人觉得讲授还是蛮有特点的,粗暴直接,另外举的例子也是蛮有趣的。

 

2.2统计学/概率参考书

(1)统计学  豆瓣评分8.8
作者William Mendenhall / Terry Sincich 

“《统计学(原书第5版)》内容丰富,很少涉及统计学理论的严格数学证明,绝大部分是与实际应用紧密联系的例子和练习,适合作为理工科各专业本科生、研究生的统计学教材,也可作为相关领域研究人员的参考读物。”
非常注重实用的统计学课程,偏应用,少数学证明,可读性比较强

(2)统计学  豆瓣评分7.3
作者:贾俊平,何晓群,金勇进

统计比较通用的入门教材了,不知不觉竟然到了第六版,个人认为也算是兼顾数学证明和应用,可读性没有上面强,但是也非常的通俗易懂,有很多统计学专业的起始教材也会选择这本。

(3)统计推断  豆瓣评分8.8,/英本原本9.2
作者:William Mendenhall / Terry Sincich


非常经典经典的统计学教材,借用介绍“从概率论的基础开始,通过例子与习题的旁征博引,引进了大量近代统计处理的新技术和一些国内同类教材中不常见而又广为使用的分布。其内容既包括工科概率入门、经典统计和现代统计的基础,又加进了不少近代统计中数据处理的实用方法和思想”
可以作为研究生所用教材,有深度,但是作者循序渐进,解释得非常漂亮

 

 

3

机器学习资料                 

 

3.1机器学习课程

强烈推荐Andrew NG吴恩达的斯坦福机器学习课程,英文授课,但是已有完善的中文字幕,内容非常丰富且充实(20节),并且讲解得非常的好,如果你想学习机器学习,一定不能错过!

Coursera地址:

https://www.coursera.org/learn/machine-learning#

网易公开课地址:

http://open.163.com/special/opencourse/machinelearning.html

同时该课程配有课件讲义,同样建议大家在学习视频课程之余多看讲义和习题,虽然是英文,但是阅读上基本没有什么问题,就讲义本身也是非常的棒。

 

如果大家学习完Andrew NG的机器学习,还想通过其他课程触类旁通,相互借鉴的话,可以上Coursera上门搜索还有其他选择,例如台大的机器学习基础等等,但毫无疑问首推Andrew NG的课程;

另外现在国内也有越来越多的培训网站推出相关课程,大家有兴趣的可以自己搜搜,这里就不做推荐了;

 

3.2机器学习教材

(1)数据挖掘导论  豆瓣评分8.4,/英本原本8.8

作者: Pang-Ning Tan、Michael Steinbach、Vipin Kumar

介绍得非常全面的一本书,但可能因为需要涵盖的内容太多,所以难免有些算法只能简单介绍。尽管这样,个人认为也是非常难得一见的入门教材,有一定难度。这本书从简单的数据开始,到各种分类算法,聚类算法,关联规则都有相对完整的指引,我认为对于我们构建自身的统计挖掘体系是有很大的帮助。中文版本翻译还是挺好的,但是英文原版那是极好的。

 

(2)统计学习方法  豆瓣评分:8.9

作者:李航

个人认为中文教材里面少见的精品,虽然精简,但逻辑非常的清晰,非常详细地为我们剖析了算法原理,可能不太适合入门者,但是还是非常值得推荐阅读学习,建议将《数据挖掘导论》以及《统计学习方法》相互借鉴学习

 

(3)The Elements of Statistical Learning(统计学习基础)

豆瓣英本原版评分9.4 中文评分7.4

作者:Trevor Hastie

这本书被广大人民喜称为ESL,虽然书名是统计学习基础,但是此书一点都不基础,一点都不~另外此书还有一本专门的入门版本ISL(后面会介绍)

这本书涵盖了非常多的内容,讲解深入,有人评价说,“有了这本书就不需要其他机器学习教材”,虽然有点夸张,但是此书实际是机器学习的经典巨作,如果你真的希望好好研究机器学习,此书非常值得仔细研读,另外此书要求不低的统计理论和数学基础。

此外,这本书还有一个牛逼的地方在于,作者把书放在网上免费下载:

http://statweb.stanford.edu/~tibs/ElemStatLearn/

 

 

 

前面都是一些理论知识,但是数据科学里面实践应用又是另外一个重中之重,接下来谈一下借助工具进行实践应用的问题,由于Python还在整理当中,本次主要介绍SPSS与R语言

 

 

4

SPSS学习资料              

 

考虑到SPSS分为统计模块Statistics以及数据挖掘模块Modeler , 因此也分为两大块介绍

 

4.1SPSS统计分析资料

SPSS Statistics 市面上的书籍比较多,从我个人的角度,认为张文彤老师的系列足以让大家加深对统计体系的理解,同时也能很好掌握在实际的应用当中如何使用统计分析帮助我们完成任务,我认为掌握统计分析原理实战和SPSS操作,以下两本书足矣。

(1)  SPSS统计分析基础教程 豆瓣评分8.4

提供了包括医疗、经济、市场研究等方面的案例贯穿了全书,能够很好从实际应用角度把统计分析原理和SPSS操作结合起来,也提供了很好的结果解读,不失为一本极好的工具指南

 

(2)高等学校教材(SPSS统计分析高级教程)豆瓣评分7.7


相比于基础教材,高级教程介绍了更多的统计算法模型,同时也提供了一些统计新方法和新观点的讲解。整体来说直观易懂,能够很好提升实战能力

 

另外张文彤老师也有对应视频课程 《张文彤SPSS初中级教程》以及《张文彤SPSS高级教程》

 

4.2 SPSS机器学习教程

(1)Modeler官方的帮助文档和Sample文件


Modeler提供完备Sample数据和数据建模文件,并且配套中文说明,可以帮助入门者一步一步搭建数据建模流并理解实际应用场景。Modeler提供的帮助文档包括有算法说明,节点说明,Crisp-dm方法论,应用文档等,其中比较重要一本如:《IBM SPSS Modler 应用程序指南》

 

(2) IBM SPSS数据分析与挖掘实战案例精粹  豆瓣评分9.3

作者:张文彤,钟云飞


非常详尽工具手册,提供了医疗、金融、保险、汽车、快速消费品、市场研究、互联网等多个行业的数据分析/挖掘案例,基于实战需求,详细讲解整个案例的完整分析过程,并将模型和软件的介绍融于案例讲解之中,尤其是书本最后几章实践案例,从商业问题界定到商业应用,给出了非常详尽的建模指南,个人认为目前市面上Modeler最好的工具手册;另外即使不是使用SPSS,而是用其他工具,该书后面的例子也值得大家研读。

 

 

5

R语言学习资料             

 

(1)R语言实战  豆瓣评分8.8

作者:Robert I.Kabacoff

首先这本书绝对可以担当日常工具手册,从基本操作,数据处理,数据建模,图形展示都给出了非常详尽的介绍;其次虽然是工具手册,但是能够结合基本统计知识于简单案例,具有很强实践性,强烈建议各位把书中的代码都实现,相信能够大大提升R的功力。最后说一句,此书翻译得不错。

 

(2)AnIntroduction to Statistical Learning(统计学习导论)  英本版豆瓣评分9.5,中文版7.6

作者:Trevor Hastie,Robert Tibshirani ,Jerome Friedman 


此书被广大人民群众称为ISL,没错,就是上面ESL的入门版本。无论作为统计教材推荐还是R语言教材推荐都称得上5星的读物。ISL虽然是入门版本,但是绝对不是因为内容简单。深入浅出,内容详细,常常读完有种恍然大悟的感觉,同时能够结合R语言介绍,大大的加分。

 

最后,此文还会不断更新(这个也得取决于浩彬老撕的读书速度),后续可能还会在各个主题下修改或更新推荐,例如在R的主题上推荐更多的专有读物(例如ggplot2),也会增加如Python,数据等方面的资源。最后欢迎大家推荐你认为更好的材料给浩彬老撕!

本文转载自:http://mp.weixin.qq.com/s?__biz=MzAxNzc3NDA3OA==&mid=2651304431&idx=1&sn=4e82688613ecc6ae7c0eabdd94c

小叮当_加V
粉丝 6
博文 98
码字总数 19908
作品 0
东城
私信 提问
(免费) 3年经验程序员进阶架构师最新教程

吐血整理50G的技术干货免费送 想为架构师的你还在到处找资料浪费时间吗?我都给你整理好了 想知道最前沿最火爆的IT技术么? 想知道最畅销的产品是如何诞生的么? 想知道年薪50w+的程序员都是...

宋庆离
2018/11/27
605
1
速度收藏 | 100+篇大数据、数据分析、数据挖掘电子书免费下载!

全部都是电子书,根据书名点击进去即可进入下载页面,不用谢我,请叫我“雷锋” SQL电子书 SQL必知必会 R语言电子书 《R语言实战》 《R语言与统计建模》 《统计学与R读书笔记》 《R实践运用》...

勿忘初心321
2016/09/07
254
0
吐血整理 20 道 Spring Boot 面试题,我经常拿来面试别人!

面试了一些人,简历上都说自己熟悉 Spring Boot, 或者说正在学习 Spring Boot,一问他们时,都只停留在简单的使用阶段,很多东西都不清楚,也让我对面试者大失所望。 下面,我给大家总结下有...

Java技术栈
2018/10/15
1K
1
《Sklearn 与 TensorFlow 机器学习实用指南》 第6章 决策树

来源:ApacheCN《Sklearn 与 TensorFlow 机器学习实用指南》翻译项目 译者:@Lisanaaa @y3534365 校对:@飞龙 和支持向量机一样, 决策树是一种多功能机器学习算法, 即可以执行分类任务也可...

ApacheCN_飞龙
2018/06/12
0
0
输入你的工作年限,工资,可以看到【排名】(互联网行业)

嘿,亲爱的你 2013年辛苦一年,眼看又到年关,年终奖都拿到了吗?2014年工资涨上去了吗?准备好面对亲戚朋友三大姑八大姨外甥小舅以及从小到大都好好学习天天向上9门功课同步学习从来不让妈妈...

尚世博
2014/01/06
9.2K
93

没有更多内容

加载失败,请刷新页面

加载更多

JAVA 编写redisUtils工具类,防止高并发获取缓存出现并发问题

import lombok.extern.slf4j.Slf4j;import org.springframework.data.redis.core.BoundHashOperations;import org.springframework.data.redis.core.BoundValueOperations;import org.......

huangkejie
46分钟前
5
0
JMM内存模型(一)&volatile关键字的可见性

在说这个之前,我想先说一下计算机的内存模型: CPU在执行的时候,肯定要有数据,而数据在内存中放着呢,这里的内存就是计算机的物理内存,刚开始还好,但是随着技术的发展,CPU处理的速度越...

走向人生巅峰的大路
今天
97
0
你对AJAX认知有多少(2)?

接着昨日内容,我们几天继续探讨ajax的相关知识点 提到ajax下面几个问题又是必须要了解的啦~~~ 8、在浏览器端如何得到服务器端响应的XML数据。 通过XMLHttpRequest对象的responseXMl属性 9、 ...

理性思考
今天
5
0
正则表达式基础(一)

1.转义 转义的作用: 当某个字符在表达式中具有特殊含义,例如字符串引号中出现了引号,为了可以使用这些字符本身,而不是使用其在表达式中的特殊含义,则需要通过转义符“\”来构建该字符转...

清自以敬
今天
4
0
idea中@Data标签getset不起作用

背景:换电脑以后在idea中有@data注解都不生效 解决办法:idea装个插件 https://blog.csdn.net/seapeak007/article/details/72911529...

栾小糖
今天
5
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部