文档章节

数据挖掘topic

Scofieldxs
 Scofieldxs
发布于 2017/05/22 20:54
字数 868
阅读 75
收藏 0

1.机器学习算法

常用算法公式汇总

  1. 西瓜书
  2. 神经网络: neural-networks-and-deep-learning-zh
    1. 优点:准确率高,可并行计算,逼近复杂的非线性关系,做特征提取
    2. 缺点:需要大量参数,解释性差,训练时间长
    3. 种类:CNN(卷积),RNN(循环),DNN(全连接神经元)
  3. GBDTGBDT和随机森林比较GBDT总结
  4. xgboost公式推导原始pptxgboost与gbdt区别参数调优运行方法
  5. 神经网络算法:owlqnSGDMomentum
  6. 神经网络分类损失函数
  7. 激活函数激活函数作用
  8. logistic regressionlogistic和朴素贝叶斯的区别LR和softmax关系
  9. 多分类auc计算
  10. GeoHash核心原理解析
  11. 决策树缺失值处理
  12. 聚类-kmeans
  13. 聚类-dbscan聚类算法
  14. 聚类-社区发现Louvain算法 , 算法讲解
  15. 生成模型vs判别模型
  16. 标准线性回归,最小二乘求解为啥线性回归使用最小二乘?
  17. 概率校准--calibration
  18. ROC, AUC
  19. 跳出局部最小值的方法

2.概率和线性代数

  1. 期望、方差、协方差及相关系数的基本运算
  2. 最大似然估计
  3. 梯度下降法好文章
  4. 特征值分解,奇异值分解,主成分分析有用文章原理讲解好文章
  5. EM算法
  6. 概率面试题
  7. 常用概率分布
  8. 蒙特卡洛抽样

3.自然语言处理

  1. 统计语言模型
    1. N元文法模型:《数学之美》page54
    2. 工程技巧,平滑方法:page60
  2. 分词
    1. 基于字符匹配:最长词匹配,歧义词和未登录词处理不好
    2. 基于统计:相邻的字同时出现的次数越多,就越可能构成一个词。 隐马尔科夫模型 + N-gram
  3. 文本相似度计算
    1. TF-IDF + 余弦相似度: TF-IDF余弦相似度
    2. 奇异值分解(SVD)
  4. word2vec
    1. 介绍 2.原理公式

4. 工程知识

  1. 特征选择

    特征选择好文章特征选择:卡方检验特征选择:信息增益特征选择:woe, IV特征选择:LR

  2. r2:方程的确定系数,表示X对Y的解释程度,取值在[0, 1]之间,越接近1表示对Y的解释程度越好 算法具体

  3. Pearson相关系数

  4. 正则化:把额外的惩罚加到已有模型上,防止过拟合并提高泛化能力

    1. L1范数:让特征稀疏,很多w变为0
    2. L2范数:岭回归,改善过拟合,让每个w都很小
    3. 通俗易懂的好文章 4. L1,L2不同效果的原因
  5. 规则引擎

    • 多模式匹配:dictmatch算法
    • 单模式匹配:bm(Boyer-Moore)算法 好文章
    • 数据结构:trie树
  6. 爬虫

    1. from sgmllib import SGMLParser
  7. 推荐系统

  8. python面试题

  9. 海量数据面试题

  10. 防止过拟合

    1. 使用简单的模型 2. 降维 3. L2范数 4.算法本身(svm松弛变量,决策树剪枝)5.增加样本(例如复制图片) 6.drop out 7. early stop
  11. 分布式神经网络训练

  12. 归一化原因

    1. 过大或过小的数值可能导致计算浮点的上溢或下溢
    2. 不同的数值范围导致不同属性对模型的重要性不同,对优化造成困难,训练时间变长
    3. 机器学习常用方法(正则)都假设属性取值在以0为均值的附近
  13. 连续特征离散化优势

  14. 梯度消失,爆炸解决办法

© 著作权归作者所有

Scofieldxs
粉丝 4
博文 24
码字总数 26524
作品 0
海淀
私信 提问
iGeek Camp第三期--北京站

活动介绍: 时间:8月14号–13:30 地址:北京市朝阳区望京方恒时代b 座601 背景:从产品到架构再到运维,最关键的移动技术话题应有尽有,分享移动开发最前沿、最关键、最核心的思想与实践! ...

cloudwiseAPM
2015/07/31
126
0
机器学习如何选择模型 & 机器学习与数据挖掘区别 & 深度学习科普

今天看到这篇文章里面提到如何选择模型,觉得非常好,单独写在这里。 更多的机器学习实战可以看这篇文章:http://www.cnblogs.com/charlesblc/p/6159187.html 另外关于机器学习与数据挖掘的区...

云栖希望。
2017/12/30
0
0
iGeek Camp第三期--北京站

活动介绍: 时间:8月14号–13:30 地址:北京市朝阳区望京方恒时代b 座601 背景:从产品到架构再到运维,最关键的移动技术话题应有尽有,分享移动开发最前沿、最关键、最核心的思想与实践! ...

cloudwiseAPM
2015/07/31
2
0
智能网站搭建(一)数据埋点

智能网站搭建(一)数据埋点 现在越来越多的网站开始对用户在网站上的一些行为进行分析,作为一个比较喜欢新鲜事物的人,就对这个技术进行一定的了解,并自己通过参考的博客实现了一个简易的...

年少爱追梦
2016/07/19
653
0
架构师实践日 11.9 南京站报名 | 技术大牛带你剖析大数据平台内部演进中的挑战与实践

从互联网时代到物联网时代,数据成为了企业的核心资产,挖掘数据价值成为了企业数据探索、技术应用的重中之重,甚至将影响到企业未来的发展和商业模式。但大数据体量大、多样性、价值密度低、...

七牛云
2018/10/30
0
0

没有更多内容

加载失败,请刷新页面

加载更多

OSChina 周一乱弹 —— 人生,还真是到处是意外

Osc乱弹歌单(2019)请戳(这里) 【今日歌曲】 @这次装个文艺青年吧 :#今日歌曲推荐# 分享lil peep的单曲《High School》 《High School》- lil peep 手机党少年们想听歌,请使劲儿戳(这里...

小小编辑
27分钟前
3
0
Spring使用ThreadPoolTaskExecutor自定义线程池及实现异步调用

多线程一直是工作或面试过程中的高频知识点,今天给大家分享一下使用 ThreadPoolTaskExecutor 来自定义线程池和实现异步调用多线程。 一、ThreadPoolTaskExecutor 本文采用 Executors 的工厂...

CREATE_17
今天
6
0
CSS盒子模型

CSS盒子模型 组成: content --> padding --> border --> margin 像现实生活中的快递: 物品 --> 填充物 --> 包装盒 --> 盒子与盒子之间的间距 content :width、height组成的 内容区域 padd......

studywin
今天
7
0
修复Win10下开始菜单、设置等系统软件无法打开的问题

因为各种各样的原因导致系统文件丢失、损坏、被修改,而造成win10的开始菜单、设置等系统软件无法打开的情况,可以尝试如下方法解决 此方法只在部分情况下有效,但值得一试 用Windows键+R打开...

locbytes
昨天
8
0
jquery 添加和删除节点

本文转载于:专业的前端网站➺jquery 添加和删除节点 // 增加一个三和一节点function addPanel() { // var newPanel = $('.my-panel').clone(true) var newPanel = $(".triple-panel-con......

前端老手
昨天
8
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部