文档章节

学习笔记TF043:TF.Learn 机器学习Estimator、DataFrame、监督器Monitors

利炳根
 利炳根
发布于 2017/08/20 11:25
字数 1186
阅读 35
收藏 0
点赞 0
评论 0

线性、逻辑回归。input_fn()建立简单两个特征列数据,用特证列API建立特征列。特征列传入LinearClassifier建立逻辑回归分类器,fit()、evaluate()函数,get_variable_names()得到所有模型变量名称。可以使用自定义优化函数,tf.train.FtrlOptimizer(),可以任意改动传到LinearClassifier。

随机森林。包含多个决策树分类器及回归算法。处理不平衡分类资料集,极大平衡误差。Kaggle数据科学竞赛,延伸版XGBoost。

TensorForestEstimator,tensor_forest.ForestHParams设置随机森林参数,多少棵树、节点数目上限、特征类别数目。

传进TensorForestEstimator初始化随机森林Estimator。数据特征列、类别列转换成float32格式,保证TensorForestExtimator训练更快拟合。Scikit-learn风格fit()方法。

随机森林容易过拟合,常用防止过拟合方法是损失减少的速度变慢或完全停止减少,提前停止模型训练。Monitor模块。random_forest模块自带LossMonitor。设定每隔100步Monitor检查损失减少速度,连续100次迭代损失没有减少,Monitor停止整个模型训练。

K均值聚类。多维空间每个点划分到K个聚类,每个点属于离它最近均值对应聚类。NumPy制造适合做聚类数据。make_random_centers函数随机生成num_dims个维度数据集聚类num_centers个中心点。make_random_points函数根据生成聚类中心点随便生成num_points个点。生成10000个点,6个随机聚类中心点。factorization模块KMeans初始化聚类方法,随机初始化RANDOM_INIT,传入RunConfig和、聚类中心数初始化KMeans Estimator对象,Scikit-learn风格fit()、predict()。KMeans clusters()函数看训练数据集每个点聚类分布。KMeans Estimator,predict()预测新数据点聚类,score()预测每个点和最近聚类距离总和,transform()计算每个点和模型判断聚类中心距离。

支持向量机。各种不同kernel或不同距离方程,针对不同特征数据建立不同线性及非线性模型。同时最小化经验误差与最大化几何边缘区,最大边缘区分类器。文本、图像分类。TF.Learn SVM Extimator API建立支持向量机模型。定义input_fn()建立有两个数据特征列、一个ID列、一个标识列模拟数据。contrib.layers FeatureColumn API 将feature1、feature2转换方便Estimator的FeatureColumn。特征列、ID列传入SVM初始化支持向量机,参数调节。l1_regularization、l2_regularization加正规化防止过度拟合问题(特征过多、例子不多,容易发生)。fit()、predict()。

DataFrame。TF.Learn包括独立DataFrame模块。类似Pandas、Spark、R编程语言DataFrame。提供TF.Learn读入数据迭代,读入各种数据类型(pandas.DataFrame、tensorflow.Example、NumPy),FeedingQueueRunner数据分批读入,存在Queue,方便Estimator模型训练。NumPy eye()建简单对角矩阵,TensorFlowDataFrame.from_numpy()把NumPy矩阵转为TensorFlow DataFrame。可以像Pandas读入各种文件类型。

用TensorFlowDataFrame读入文件或数据类型后,run()制造数据批量(batch)生成器,Python yield生成generator,生成器维持数据列名和数据字典mapping。调节number_batches选择生成batch数量,选择性用自己的graph、session,数据batch存到session coordinator。batch()重新改变batch大小。数据洗一遍打乱顺序。split(),DataFrame分多个。select_rows()选择具体行数据。

监督器Monitors。TF.Learn自带Monitor,各种logging及监督控制训练过程。5个等级log,严重性最小到最大排列,DEBUG、INFO、WARN、ERROR、FATAL。选择只打印设置等级或更严重的log。TensorFlow默认log等级 WARN。模型训练log,设INFO。CaptureVariable 指定变量值存储到Collection。PrintTensor打印Tensor值。SummarySaver存储Summary协议缓冲(Protocol Buffer)。ValidationMonitor训练打印多个评估Metrics,监督模型训练,提前停止训练防止模型过度拟合。

TF.Learn自带learn.datasets.base.load_csv()读入CSV数据文件。定义评估模型metrics字典,contrib.metrics模块streaming_accuracy、streaming_precision、streaming_recall评估模型准确度、精确度、召回率。validation_metrics建立validation_monitor,提供评估数据及目标。提供every_n_steps指示每50步实行ValidationMonitor。validation_metrics传入metrics。early_stopping_netric提前停止监测metric。early_stopping_metric_minimize=True表明最小化前提供early_stopping_metric。early_stopping_rounds表明超过200步训练损失不减少,ValidationMonitor停止Estimator训练。

建立深度神经网络分类器DNNClassifier,三层神经网络,每层10、15、10个隐藏单元。分类器fit()指定监督器validation_monitor,指定多个监督器实现不同功能监督,validation_monitor,debug_monitor,print_monitor。

evaluate()、predict(),新数据评估模型准确度。

TF.Learn生成log及checkpoint文件可以直接读入TensorBoard可视化。

参考资料: 《TensorFlow实战》

欢迎付费咨询(150元每小时),我的微信:qingxingfengzi

© 著作权归作者所有

共有 人打赏支持
利炳根
粉丝 11
博文 60
码字总数 136346
作品 0
深圳
python 超全sklearn教程,数据挖掘从入门到入坑

最近工作中遇到了一些数据建模的问题,趁这几天有时间,把数据挖掘过程中一些流程规范和常见的机器学习问题总结一下。本篇博文涵盖的内容有机器学习的概念,模型分类(有监督、无监督),pyt...

qwop446 ⋅ 2017/09/16 ⋅ 0

Python 数据科学手册 5.2 Scikit-Learn 简介

5.2 Scikit-Learn 简介 原文:Introducing Scikit-Learn 译者:飞龙 协议:CC BY-NC-SA 4.0 译文没有得到原作者授权,不保证与原文的意思严格一致。 有几个 Python 库提供一系列机器学习算法...

apachecn_飞龙 ⋅ 2017/06/30 ⋅ 0

python执行各种sql语句,让你分析数据更简洁

由于许多潜在的pandas用户对SQL有一定的了 解 ,因此本页旨在提供一些使用pandas来执行各种SQL操作的示例。 大部分的例子将利用在pandas测试中发现的数据集。我们将数据读入一个名为tips的D...

frbevrqbn4l ⋅ 2017/11/07 ⋅ 0

机器学习实战(四)模型验证和选择

模型选择和评估主要是在这个模块里面.这里只会列出概述和常见函数的用法,更加详细的可以到sklearn.modelselection: Model Selection 来看 一.概览 Splitter Classes modelselection.KFold([n...

xierhacker ⋅ 2017/04/23 ⋅ 0

十分钟读懂python的“数据库”语言

JOIN可以用或执行。默认情况下, 将在其索引中加入DataFrame。每个方法都有参数,允许您指定要执行的联接类型(LEFT,RIGHT,INNER,FULL)或要联接的列(列名称或索引)。 假设我们有两个与...

frbevrqbn4l ⋅ 2017/11/09 ⋅ 0

扩展Spark ML来构建你自己的模型和变换器类型

本文转自OReillyData微信公众号,版权属O'Reilly Media所有。如需转载请联系OReillyData微信公众号。另,如视频及图片无法正常显示,请登录O'Reilly官网阅读原文:https://www.oreilly.com.c...

O'Reilly ⋅ 2017/07/04 ⋅ 0

Maching Learning学习第一周笔记

生词 contour plot: 等高线 slope: 斜率 convergence: 收敛 derivative: 导数 tangential line: 切线 gradient descent: 梯度下降 机器学习的定义 一门让计算机在不用显式编程的情况下就可以...

xumingmingv ⋅ 05/05 ⋅ 0

MATLAB数据降维工具箱drtoolbox介绍

1.MATLAB drtoolbox介绍 The Matlab Toolbox for Dimensionality Reduction contains Matlab implementations of 38 techniques for dimensionality reduction and metric learning. 官方网站......

找一片天空散步 ⋅ 2014/01/22 ⋅ 2

TensorFlow学习笔记(一)入门

一、 TensorFlow是什么? 是谷歌开源的机器学习实现框架,本文从Python语言来理解学习Tensorflow以及机器学习的知识。 TensorFlow的API主要分两个层次,核心层和基于核心层的高级API。核心层...

wuyzhen_csdn ⋅ 2017/03/21 ⋅ 0

机器学习课程_课堂笔记1:

声明:这个系列的文章主要用来记录自己这段时间学习斯坦福大学《机器学习》课程的个人学习笔记,内容主要来自Andrew Ng教授学习视频。准备大部分记录自己的理解,可能会有一些实验贴出来。各...

zhouplus ⋅ 2016/11/09 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

大数据,必须掌握的10项顶级安全技术

我们看到越来越多的数据泄漏事故、勒索软件和其他类型的网络攻击,这使得安全成为一个热门话题。 去年,企业IT面临的威胁仍然处于非常高的水平,每天都会看到媒体报道大量数据泄漏事故和攻击...

p柯西 ⋅ 33分钟前 ⋅ 0

Linux下安装配置Hadoop2.7.6

前提 安装jdk 下载 wget http://mirrors.hust.edu.cn/apache/hadoop/common/hadoop-2.7.6/hadoop-2.7.6.tar.gz 解压 配置 vim /etc/profile # 配置java环境变量 export JAVA_HOME=/opt/jdk1......

晨猫 ⋅ 39分钟前 ⋅ 0

crontab工具介绍

crontab crontab 是一个用于设置周期性被执行的任务工具。 周期性执行的任务列表称为Cron Table crontab(选项)(参数) -e:编辑该用户的计时器设置; -l:列出该用户的计时器设置; -r:删除该...

Linux学习笔记 ⋅ 今天 ⋅ 0

深入Java多线程——Java内存模型深入(2)

5. final域的内存语义 5.1 final域的重排序规则 1.对于final域,编译器和处理器要遵守两个重排序规则: (1)在构造函数内对一个final域的写入,与随后把这个被构造对象的引用赋值给一个引用...

江左煤郎 ⋅ 今天 ⋅ 0

面试-正向代理和反向代理

面试-正向代理和反向代理 Nginx 是一个高性能的反向代理服务器,但同时也支持正向代理方式的配置。

秋日芒草 ⋅ 今天 ⋅ 0

Spring 依赖注入(DI)

1、Setter方法注入: 通过设置方法注入依赖。这种方法既简单又常用。 类中定义set()方法: public class HelloWorldOutput{ HelloWorld helloWorld; public void setHelloWorld...

霍淇滨 ⋅ 昨天 ⋅ 0

马氏距离与欧氏距离

马氏距离 马氏距离也可以定义为两个服从同一分布并且其协方差矩阵为Σ的随机变量之间的差异程度。 如果协方差矩阵为单位矩阵,那么马氏距离就简化为欧氏距离,如果协方差矩阵为对角阵,则其也...

漫步当下 ⋅ 昨天 ⋅ 0

聊聊spring cloud的RequestRateLimiterGatewayFilter

序 本文主要研究一下spring cloud的RequestRateLimiterGatewayFilter GatewayAutoConfiguration @Configuration@ConditionalOnProperty(name = "spring.cloud.gateway.enabled", matchIfMi......

go4it ⋅ 昨天 ⋅ 0

Spring clound 组件

Spring Cloud技术应用从场景上可以分为两大类:润物无声类和独挑大梁类。 润物无声,融合在每个微服务中、依赖其它组件并为其提供服务。 Ribbon,客户端负载均衡,特性有区域亲和、重试机制。...

英雄有梦没死就别停 ⋅ 昨天 ⋅ 0

Confluence 6 重新获得站点备份文件

Confluence 将会创建备份,同时压缩 XML 文件后存储熬你的 <home-directory>/backups> 目录中。你需要自己访问你安装的 Confluence 服务器,并且从服务器上获得这个文件。 运行从 Confluence...

honeymose ⋅ 昨天 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部