Python数据挖掘与分析(一)

原创
2017/04/28 21:54
阅读数 84

1.数据挖掘简介

数据挖掘是指让计算机通过数据做出决策,决策可以是预测天气,拦截垃圾邮件,推荐商品,匹配有共同语言的朋友.......简言之,就是用数据训练计算机,发现数据之间的关系,挖掘数据的潜在价值。

数据挖掘的第一步是创建数据集,使用数据集描述具体的世界,计算机通过数据集来接触现实世界。数据集包含两部分:表示真实世界的样本和描述数据集中样本的特征;数据挖掘的第二部是创建和调试数据挖掘算法,通过参数调试,尽可能的优化算法,使计算机可以尽可能做出有利的决策。举例:在以人为样本的数据集中,身高和体重就是特征。

2.使用Python和Ipython Notebook,安装scikit-learn机器学习库

ipython是一个优秀的解释器,相对python默认的解释器具有更强的功能,IPython Notebook非常适合做数据分析,可以允许我们在web浏览器中编写程序。 先安装pip

sudo apt-get install python-pip

再安装ipython和ipython-notebook

sudo apt-get install ipython
sudo apt-get install ipython-notebook

启动ipython-notebook

ipython notebook

scikit-learn机器学习库使Python的机器学习库,包含大量的机器学习算法,数据集,工具和框架,安装之前需要先安装scipy和numpy。

pip install scikit-learn
展开阅读全文
打赏
0
0 收藏
分享
加载中
更多评论
打赏
0 评论
0 收藏
0
分享
返回顶部
顶部