文档章节

iris数据集demo

KYO4321
 KYO4321
发布于 2017/06/29 11:31
字数 293
阅读 15
收藏 0
#!/usr/bin/env python
##K-means操作
import numpy as np
import pandas as pd
from sklearn import cluster #机器学习库
np.random.seed(1024) #设置随机数种子

iris = pd.read_excel('D:/data/iris_data.xlsx')

print(iris.shape) #输出数据维度
print(iris.head())#查看前5行

print(iris.describe())
print(iris.describe().T)

irisK3 = cluster.KMeans(n_clusters=3, random_state=1)
irisFeatures = iris.ix[:, 1:4]
irisK3.fit(irisFeatures)

#############
##K-means:Method two
from sklearn import metrics
from sklearn.metrics import pairwise_distances
from sklearn import datasets
dataset = datasets.load_iris()
X = dataset.data
y = dataset.target

import numpy as np
from sklearn.cluster import KMeans
kmeans_model = KMeans(n_clusters=3, random_state=1).fit(X)
labels = kmeans_model.labels_
metrics.silhouette_score(X, labels, metric='euclidean')
#####################


#############################################
##决策树操作
from sklearn.datasets import load_iris
from sklearn import cross_validation
from sklearn import tree
iris = load_iris()
target = iris.target #目标变量
data = iris.data[:, 1:4] #自变量

train_data, test_data, train_target, test_target = cross_validation.train_test_split(data,
                target, test_size = 0.24, random_state = 0) #分成训练集、测试集(占0.24)

clf = tree.DecisionTreeClassifier(criterion='gini', max_depth=6, 
                                  min_samples_split=5) #CART算法

clf_fit = clf.fit(train_data, train_target) #开始fit
#print clf_fit
train_est=clf.predict(train_data) #预测训练集
test_est=clf.predict(test_data) #预测测试集

sum=0 
for i in range(36):    
    if test_est[i] == test_target[i]:
        sum = sum + 1        
print('test_accuracy=',"%.2f%%"%(sum*1.0/36*100)) #测试集预测正确率

sum=0 
for i in range(114):    
    if train_est[i] == train_target[i]:
        sum = sum + 1        
print('tarin_accuracy=',"%.2f%%"%(sum*1.0/114*100)) #训练集预测正确率


#############
from sklearn.datasets import load_iris
from sklearn.cross_validation import cross_val_score
from sklearn.tree import DecisionTreeClassifier
clf = DecisionTreeClassifier(random_state=0)
iris = load_iris()
cross_val_score(clf, iris.data, iris.target, cv=10)

© 著作权归作者所有

共有 人打赏支持
KYO4321
粉丝 4
博文 85
码字总数 47544
作品 0
深圳
程序员
scikit-learn的基本用法(一)——KNN算法的使用

文章作者:Tyan 博客:noahsnail.com | CSDN | 简书 本文主要使用scikit-learn中的KNN算法进行Iris数据集的分类。Iris也称鸢尾花卉数据集,是一类多重变量分析的数据集。通过花萼长度,花萼宽...

Quincuntial
2017/05/02
0
0
[2018-07-08] tensorflow 创建线性回归(1)

OverView: 今天突然想起以前写过一个用BP算法的iris分类器, 加上最近面试把线性规划的思想和实现又看了一遍. (1) 数据集介绍 (2) tensorflow 实现分类器 (3) tensorflow实现模型评估 (1) 数据...

斐波那契的数字
07/08
0
0
[雪峰磁针石博客]scikit-learn_cookbook1: 高性能机器学习-NumPy

源码下载 在本章主要内容: NumPy基础知识 加载iris数据集 查看iris数据集 用pandas查看iris数据集 用NumPy和matplotlib绘图 最小机器学习配方 - SVM分类 介绍交叉验证 以上汇总 机器学习概述...

Python测试开发人工智能
07/27
0
0
Spark MLlib 学习入门笔记 - RDD基础

RDD(Resilient Distributed Datasets)分布式弹性数据集,将数据分布存储在不同节点的计算机内存中进行存储和处理。RDD的任务被分成两部分:Transformation和Action。Transformation用于对R...

h8b6pk7m7r8
01/06
0
0
分类算法之邻近算法:KNN(应用篇)

起步 这次使用的训练集由 模块提供,关于虹膜(一种鸢尾属植物)的数据。 数据载入 数据存储在 成员中,它是一个 (nsamples, nfeatures) 数组: 它有四个特征,萼片长度,萼片宽度,花瓣长度...

weapon
2017/12/08
0
0

没有更多内容

加载失败,请刷新页面

加载更多

可爱的python测试开发库(python测试开发工具库汇总)

欢迎转载,转载请注明来源: github地址 谢谢点赞 本文地址 相关书籍下载 测试开发 Web UI测试自动化 splinter - web UI测试工具,基于selnium封装。 链接 selenium - web UI自动化测试。 链...

python测试开发人工智能安全
今天
2
0
Shiro | 实现权限验证完整版

写在前面的话 提及权限,就会想到安全,是一个十分棘手的话题。这里只是作为学校Shiro的一个记录,而不是,权限就应该这样设计之类的。 Shiro框架 1、Shiro是基于Apache开源的强大灵活的开源...

冯文议
今天
1
0
linux 系统的运行级别

运行级别 运行级别 | 含义 0 关机 1 单用户模式,可以想象为windows 的安全模式,主要用于修复系统 2 不完全的命令模式,不含NFS服务 3 完全的命令行模式,就是标准的字符界面 4 系统保留 5 ...

Linux学习笔记
今天
2
0
学习设计模式——命令模式

任何模式的出现,都是为了解决一些特定的场景的耦合问题,以达到对修改封闭,对扩展开放的效果。命令模式也不例外: 命令模式是为了解决命令的请求者和命令的实现者之间的耦合关系。 解决了这...

江左煤郎
今天
3
0
字典树收集(非线程安全,后续做线程安全改进)

将500W个单词放进一个数据结构进行存储,然后进行快速比对,判断一个单词是不是这个500W单词之中的;来了一个单词前缀,给出500w个单词中有多少个单词是该前缀. 1、这个需求首先需要设计好数据结...

算法之名
昨天
15
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部