文档章节

一、《集体智慧编程》之机器学习&数据挖掘框架认识

iTacey
 iTacey
发布于 2015/03/28 15:24
字数 1659
阅读 234
收藏 10

    前言:新开通的博客,用于记录一些学习方面的东西,算是一个学习笔记吧。本系列按照《集体智慧编程》一书的框架进行。老实说,《集体》在理论上并不算是很好的参考书,但是该书是以一个个具体场景应用为驱动的,个人认为很适合用于机器学习相关的入门教材,起码很对我的胃口。

    “假如你训练了一只狗,若干年后,如果它忽然有一天能帮你擦鞋洗衣服,那么这就是数据挖掘;要是忽然有一天,你发现狗化装成一个老太婆消失了,那么这就是机器学习。” ——杨强,香港科技大学

    机器学习说起来应该是人工智能领域与算法领域的一个子领域。它允许计算机不断的进行学习。大多数情况下,这相当于将一组数据传递给算法,并由算法推断出这些数据属性相关的信息——借助这些信息,算法能够预测出未来有可能出现的其他数据。简单点来说就是从数据中自动分析获得规律,并利用规律对未知数据进行预测。

    数据挖掘在某方面可以说算是机器学习的一种应用。机器学习算法其它的方面的应用有计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺骗、证券市场分析、DNA序列测序、语音和手写字识别、战略游戏和机器人运用等。

 

1、机器学习&数据挖掘的数学基础

机器学习是一个多领域交叉的学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等。具体来说,机器学习与数据挖掘学习需要用到的数学核心基础有以下几个方面:

①微积分 (没办法,这个是数学分析的基础)

②线性代数 (主要用来理解有关数据的向量表示及矩阵/向量运算)

③概率论 (你不得不相信,机器学习算法的现状是多数是基于统计概率,剩下的是树模型)

④统计学

⑤离散数学 (这个。。。傻傻地只知道便于逻辑推理、符号运算、线性转离散,具体还没碰到)

进阶学习需要用到的数学基础有(除了复变函数听说过一点,别的对我来说都来自火星):

①泛函分析

②复变函数

③偏微分方程

④抽象代数

⑤约束优化

⑥模糊数学

⑦数值计算等

 

2、机器学习&数据挖掘的类别

2.1、机器学习主要可以分成下面几种类别:

①监督学习:

    形式:从训练集(有人为标注的结果)学习一个函数,当新的数据到来时,把数据传递给这个函数,嗖,Duang!就把结果给你了 A--->f(x)--->B

    常见算法:回归分析与统计分类

②无监督学习

    形式:A---->B

    常见算法:聚类

③半监督学习(还没碰到)

④增强型学习

     主要是通过周围环境的反馈(还没碰到)

        2.2、算法分类

         机器学习与数据挖据算法主要有以下三个方面:

①聚类

②分类

③推荐(某种程度上算是前面两个的应用)

         具体的机器学习算法有:

构造条件概率:回归分析与统计分类

    人工神经网络

    决策树

    高斯过程回归

    线性判别分析

    最近邻(KNN)

    感知器

    径向基函数核()

    支持向量机(SVM)

通过再生模型构造概率密度函数

    最大期望算法

    图模型:贝叶斯网络、Markov随机场

近似推断技术

     马尔科夫链

     蒙特卡罗方法

     变分法

最优化

    大多数以上方法、直接或剪辑使用最优化算法

 

3、机器学习与数据挖掘的十大算法

把这个单独列出来呢是因为这十大算法不是按类别分的,而是人为选取出来在机器学习和数据挖掘方面影响最大的Top10算法。

①C4.5

②K-means

③SVM

④Apriori

⑤EM

⑥PageRank

⑦AdaBoost

⑧KNN

⑨NaiveBages

⑩CART

4、机器学习的局限

         机器学习不是“银弹”,也有自身的缺点。主要表现在:

         ①机器学习算法受限于其在大量模式之上的归纳能力,而一个模式只能根据过往的信息,而无法找出新遇到的信息和过往信息的相似之处

         ②所有的机器学习算法都有过度归纳的可能性

 

5、应用

        嘎嘎,发展兴起和学习什么机器学习也好,数据挖掘也好,为的是啥?——使用它们来为我们服务,让我们的生活更美好!

①推荐系统

    当当、亚马逊之类的推荐商品;

    delicious.com URL分享

    豆瓣类的

    微博、搜索引擎

    约会网站、交友网站(任何一种成功的匹配算法很可能都会涉及一个持续不断的求值过程——算法会反复判断选定的匹配成功与否)

②生物工艺学

    人类的测序技术和筛选技术(DNA序列、蛋白质结构、化合物筛选以及RNA表达)

③金融欺诈侦测

    利用技术:神经网络、归纳逻辑

④机器视觉

    从大数据集中发现有趣特征的独立组元分析技术(无人监控)

    车牌识别、人脸识别

⑤产品市场化

⑥供应链优化

⑦国家安全

    政府部门搜集海量信息,对数据分析将其与潜在的威胁联系起来

。。。

    附:

1、相关的软件

①MATLAB/GNU Octave

    用于矩阵运算分析、线性分析、多元函数分析、数值微积分、方程求解、边值问题求解、数据统计、绘图

②SPSS系列

    封装好的算法,可以直接调用,用以发现、检验等等

③R

    用于统计分析、绘图。内建多种统计学及数字分析功能

④Python程序集(NumPy、BS、Sci、matplotlib、PIL、CV2等)

    数据获取、数据清洗、数据分析、算法实现、绘图、系统实现等等

2、相关资讯资料链接

①维基百科

    了解基础概念

②好东西传送门

    微博:http://weibo.com/haoawesome

    主页:http://memect.com/

③结构之法 算法之道(v_July_v)

    博客地址:http://blog.csdn.net/v_July_v

© 著作权归作者所有

iTacey
粉丝 0
博文 2
码字总数 3641
作品 0
濮阳
私信 提问
加载中

评论(1)

lightpig
lightpig
这个离普通程序员比较远,像我这种学物理学的,很多数学基础都学过,现在也都没办法接触,把普通的系统开发做好都很不错了。以后有机会接触到,再说吧。
干货:普通程序员如何正确学习人工智能方向的知识?

在踏入人工智能大门前,我先讲一下,为什么这两年深度学习为什么突然火了 2016年AlphaGo 4比1 战胜李世石,掀起了一波AI热潮,DeepMind背后所用的深度学习一下子火了起来了。其实在内行看来,...

za8kfnpo2
2018/04/21
0
0
天猫超市 招人!

[天猫超市-端运营部-一小时达]急需人才!急需人才!急需人才!!!
 不管你是产品运营,商品品类运营 , 还是服务体验! 我们都要!都要!都要!!!
机会无限!!!(业务飞速发展,你懂...

面包君
2018/01/08
0
0
Gmail 动态邮件 7 月 GA,默认开放给所有域

今年 3 月份,谷歌宣布推出 Gmail 动态电子邮件测试版,通过使用其自家开源的 AMP for Email 框架,可以将调查问卷、预约预订流程和可浏览产品目录等交互内容加载到邮件中。近日谷歌表示,7...

h4cd
06/11
1K
9
(2017)我不建议使用的Python Web框架

昨天我提了一个问题(2017)你最不建议使用的Python Web框架?下面是在原问题下的回答,看过的同学可以点赞关闭了。 --- 分割线 --- 在知乎可以看到的很多Web框架推荐,有很多内容已经过时,...

董伟明
2017/08/10
0
0
[关系图谱] 二.Gephi导入共线矩阵构建作者关系图谱

版权声明:本文为博主原创文章,转载请注明CSDN博客源地址!共同学习,一起进步~ https://blog.csdn.net/Eastmount/article/details/85046305 本文主要讲解Gephi绘制作者间的关系图谱,该软件...

Eastmount
2018/12/17
0
0

没有更多内容

加载失败,请刷新页面

加载更多

Archiva 不小心删掉了管理员权限怎么办

Archiva 的界面和 UI 比较容易出问题。 在添加用户和为用户进行权限修改的时候,不小心连 admin 这个用户的权限都删掉了。 这个时候应该如何恢复 admin 这个用户的权限? 这个时候你可以尝试...

honeymoose
28分钟前
4
0
Java8新特性之空指针异常的克星Optional类

Java8新特性系列我们已经介绍了Stream、Lambda表达式、DateTime日期时间处理,最后以“NullPointerException” 的克星Optional类的讲解来收尾。 背景 作为开发人员每天与NullPointerExceptio...

程序新视界
40分钟前
3
0
OSChina 周四乱弹 —— 福布斯终身秃头奖

Osc乱弹歌单(2019)请戳(这里) 【今日歌曲】 @宇辰OSC :分享如是我闻的单曲《地藏经上卷》: 如是我闻#今日歌曲推荐# 《地藏经上卷》- 如是我闻 手机党少年们想听歌,请使劲儿戳(这里) ...

小小编辑
43分钟前
142
7
Mybatis Plus删除

/** @author beth @data 2019-10-17 00:30 */ @RunWith(SpringRunner.class) @SpringBootTest public class DeleteTest { @Autowired private UserInfoMapper userInfoMapper; /** 根据id删除......

一个yuanbeth
今天
6
0
总结

一、设计模式 简单工厂:一个简单而且比较杂的工厂,可以创建任何对象给你 复杂工厂:先创建一种基础类型的工厂接口,然后各自集成实现这个接口,但是每个工厂都是这个基础类的扩展分类,spr...

BobwithB
今天
6
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部