连击 天
fork: star:
一、SVM是什么 支撑向量机,SVM(Support Vector Machine),其实就是一个线性分类器。 1-1 线性可分 首先我们先来了解下什么是线性可分。 在二维空间上,两类点被一条直线完全分开叫做线性可分...
一、什么是降维 降维,就是将数据由原来的n个特征(feature)缩减为k个特征(可能从n个中直接选取k个,也能根据这n个重新组合成k个)。可起到数据压缩的作用(因而也就存在数据丢失)。 PCA,即主...
一、什么是决策树 决策树是一种常见的机器学习算法,类似人类做决策的过程。他是类似流程图的结构。决策树基本上就是把我们以前的经验总结出来。如果我们要出门打篮球,一般会根据“天气”、...
一、逻辑回归算法 逻辑回归(Logistic Regression,LR)在实际场景中运用广泛,除了运用广泛,LR的建模过程还体现了数据建模中很重要的思想:对问题划分层次,并利用非线性变换和线性模型的组...
一、sklearn中的Pipeline 1-1、多项式回归 相对于线性回归模型只能解决线性问题,多项式回归能够解决非线性回归问题。 拿最简单的线性模型来说,其数学表达式可以表示为:y=ax+b,它表示的是...
一、什么是梯度下降 梯度下降是迭代法的一种,可以用于求解最小二乘问题(线性和非线性都可以)。 在求解机器学习算法的模型参数,即无约束优化问题时,梯度下降(Gradient Descent)是最常采用...
在以前的内容中,我们学习到了KNN分类算法。其中:分类(Classification)指 Y变量为类别型(categorical variable),如:颜色类别,电脑品牌,有无信誉。 今天学习的线性回归算法,其中: 回归...
一、无量纲化:最值归一化、均值方差归一化及sklearn中的Scaler 在实际应用中,样本的不同特征的单位不同,会在求距离时造成很大的影响。 比如: 在两个样本中肿瘤大小的分别为1cm和5cm,发现...
上一节内容中,我们用Python实现了kNN算法,并且调用了sklearn库中为我们封装好的kNN算法。但是,怎么评价我们使用的模型好不好?预测的准确率高不高呢? 在这一节中,我们将对这些问题进行解...
一、kNN算法简介 1-1、kNN算法简介 kNN算法,即k最近邻算法(k-NearestNeighbor)是数据挖掘算法中最基础的算法之一。所谓k最近邻就是k个最近的邻居的意思。 1-2、kNN算法思想 kNN是一种分类...
一、背景与目的 1-1、分析背景 2020年初,新型冠状病毒引起的肺炎疫情迅猛来袭,并随着春节返乡潮扩散至全国范围。为有效防控疫情,全国各地普遍采取延长春节假期、延迟复工、取消公众集体活...
01 入门 制作提供信息的可视化是数据分析的重要任务之一。首先介绍一下matplotlib库。 import matplotlib.pyplot as plt import numpy as np data = np.arange(10) print(data) plt.plot(dat...
今天,我们接着上次的数据转换操作讲解 01 数据转换 01-01 替代值 通常我们使用replace来替换缺失值。 #!/usr/bin/python # -- coding: UTF-8 -- import pandas as pd import numpy as np d...
01 处理缺失值 pandas使用浮点值NaN(Not a Number)表示缺失值。我们称NaN为容易检测到的标识值: import pandas as pd import numpy as np string_data = pd.Series(['aardvark', 'artichoke...
01 文本格式数据读写 01-01 带表头文件 一些数据载入函数,如pandas.read_csv会进行类型推断,因为列的数据类型并不是数据格式的一部分。这意味着你不必指定哪一列是数值、整数、布尔值或字符...
01 重建索引 reindex是pandas对象的重要方法。该方法用于创建一个符合新索引的新对象。 import pandas as pd obj = pd.Series([4.5, 7.2, -5.3, 3.6], index=['d','b','a','c']) print(obj)...
昨天讲了 数据帧(DataFrame)是二维数据结构,即数据以行和列的表格方式排列。 import pandas as pd data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'], 'year': [20...
为了入门pandas,需要熟悉两个常用的工具数据结构:Series和DataFrame。 今天主要讲解Series。 Series是能够保存任何类型的数据(整数,字符串,浮点数,Python对象等)的一维标记数组。轴标签...
01 文件输入和输出 np.save和np.load是高效存取硬盘数据的两大工具函数。 数组在默认情况下是以未压缩的格式进行存储的,后缀名是.npy。 import numpy as np arr = np.arange(10) np.save('...
01 将条件逻辑作为数组操作 numpy.where函数是三元表达式x if condition else y的向量化版本。 例如: 我们有一个条件和两个数组。 import numpy as np xarr = np.array([1.1,1.2,1.3,1.4,1....
没有更多内容
加载失败,请刷新页面
文章删除后无法恢复,确定删除此文章吗?
动弹删除后,数据将无法恢复
评论删除后,数据将无法恢复