加载中
机器学习算法(十)—— SVM支持向量机

一、SVM是什么 支撑向量机,SVM(Support Vector Machine),其实就是一个线性分类器。 1-1 线性可分 首先我们先来了解下什么是线性可分。 在二维空间上,两类点被一条直线完全分开叫做线性可分...

机器学习算法(九)—— 降维与主成分分析法

一、什么是降维 降维,就是将数据由原来的n个特征(feature)缩减为k个特征(可能从n个中直接选取k个,也能根据这n个重新组合成k个)。可起到数据压缩的作用(因而也就存在数据丢失)。 PCA,即主...

2020/04/29 23:15
108
机器学习算法(八)—— 决策树

一、什么是决策树 决策树是一种常见的机器学习算法,类似人类做决策的过程。他是类似流程图的结构。决策树基本上就是把我们以前的经验总结出来。如果我们要出门打篮球,一般会根据“天气”、...

2020/04/19 22:36
108
机器学习算法(七)—— 逻辑回归

一、逻辑回归算法 逻辑回归(Logistic Regression,LR)在实际场景中运用广泛,除了运用广泛,LR的建模过程还体现了数据建模中很重要的思想:对问题划分层次,并利用非线性变换和线性模型的组...

2020/04/12 22:27
56
机器学习算法(六)—— 知识补充

一、sklearn中的Pipeline 1-1、多项式回归 相对于线性回归模型只能解决线性问题,多项式回归能够解决非线性回归问题。 拿最简单的线性模型来说,其数学表达式可以表示为:y=ax+b,它表示的是...

2020/04/05 20:04
214
机器学习算法(五)—— 最优化方法:梯度下降

一、什么是梯度下降 梯度下降是迭代法的一种,可以用于求解最小二乘问题(线性和非线性都可以)。 在求解机器学习算法的模型参数,即无约束优化问题时,梯度下降(Gradient Descent)是最常采用...

2020/03/29 20:25
211
机器学习算法(四)—— 线性回归算法

在以前的内容中,我们学习到了KNN分类算法。其中:分类(Classification)指 Y变量为类别型(categorical variable),如:颜色类别,电脑品牌,有无信誉。 今天学习的线性回归算法,其中: 回归...

机器学习算法(三)—— 简单的数据预处理和特征工程

一、无量纲化:最值归一化、均值方差归一化及sklearn中的Scaler 在实际应用中,样本的不同特征的单位不同,会在求距离时造成很大的影响。 比如: 在两个样本中肿瘤大小的分别为1cm和5cm,发现...

2020/03/12 10:27
617
机器学习算法(二)—— 如何评价模型好坏

上一节内容中,我们用Python实现了kNN算法,并且调用了sklearn库中为我们封装好的kNN算法。但是,怎么评价我们使用的模型好不好?预测的准确率高不高呢? 在这一节中,我们将对这些问题进行解...

2020/03/03 23:39
1.5K
机器学习算法(一)——kNN算法

一、kNN算法简介 1-1、kNN算法简介 kNN算法,即k最近邻算法(k-NearestNeighbor)是数据挖掘算法中最基础的算法之一。所谓k最近邻就是k个最近的邻居的意思。 1-2、kNN算法思想 kNN是一种分类...

2020/02/24 16:39
1.5K
疫情进展分析报告

一、背景与目的 1-1、分析背景 2020年初,新型冠状病毒引起的肺炎疫情迅猛来袭,并随着春节返乡潮扩散至全国范围。为有效防控疫情,全国各地普遍采取延长春节假期、延迟复工、取消公众集体活...

2020/02/20 12:12
8.4K
pandas入门07---可视化

01 入门 制作提供信息的可视化是数据分析的重要任务之一。首先介绍一下matplotlib库。 import matplotlib.pyplot as plt import numpy as np data = np.arange(10) print(data) plt.plot(dat...

pandas入门06---数据清洗02

今天,我们接着上次的数据转换操作讲解 01 数据转换 01-01 替代值 通常我们使用replace来替换缺失值。 #!/usr/bin/python # -- coding: UTF-8 -- import pandas as pd import numpy as np d...

2019/09/16 16:26
78
pandas入门05---数据清洗

01 处理缺失值 pandas使用浮点值NaN(Not a Number)表示缺失值。我们称NaN为容易检测到的标识值: import pandas as pd import numpy as np string_data = pd.Series(['aardvark', 'artichoke...

pandas入门04---数据读取

01 文本格式数据读写 01-01 带表头文件 一些数据载入函数,如pandas.read_csv会进行类型推断,因为列的数据类型并不是数据格式的一部分。这意味着你不必指定哪一列是数值、整数、布尔值或字符...

2019/09/11 09:29
213
pandas入门03---pandas基本功能

01 重建索引 reindex是pandas对象的重要方法。该方法用于创建一个符合新索引的新对象。 import pandas as pd obj = pd.Series([4.5, 7.2, -5.3, 3.6], index=['d','b','a','c']) print(obj)...

2019/09/05 09:59
67
pandas入门02---DataFrame

昨天讲了 数据帧(DataFrame)是二维数据结构,即数据以行和列的表格方式排列。 import pandas as pd data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'], 'year': [20...

2019/09/04 09:55
53
pandas入门01---Series

为了入门pandas,需要熟悉两个常用的工具数据结构:Series和DataFrame。 今天主要讲解Series。 Series是能够保存任何类型的数据(整数,字符串,浮点数,Python对象等)的一维标记数组。轴标签...

2019/09/03 14:05
70
NumPy入门06---IO、伪随机数生成

01 文件输入和输出 np.save和np.load是高效存取硬盘数据的两大工具函数。 数组在默认情况下是以未压缩的格式进行存储的,后缀名是.npy。 import numpy as np arr = np.arange(10) np.save('...

2019/09/02 10:50
32
NumPy入门05---使用数组进行面向数组编程

01 将条件逻辑作为数组操作 numpy.where函数是三元表达式x if condition else y的向量化版本。 例如: 我们有一个条件和两个数组。 import numpy as np xarr = np.array([1.1,1.2,1.3,1.4,1....

2019/09/02 10:27
94

没有更多内容

加载失败,请刷新页面

返回顶部
顶部