数据挖掘与R语言——第二章(预测海藻数量)

原创
2015/04/22 11:34
阅读数 368

<p>一、首先介绍两个非常给力的讲 ggplot2 绘图的博客:</p> <p><a title="http://www.cellyse.com/how_to_use_gggplot2_part2/#comments" href="http://www.cellyse.com/how_to_use_gggplot2_part1/#comments">http://www.cellyse.com/how_to_use_gggplot2_part1/#comments</a></p> <p><a title="http://www.cellyse.com/how_to_use_gggplot2_part2/#comments" href="http://www.cellyse.com/how_to_use_gggplot2_part2/#comments">http://www.cellyse.com/how_to_use_gggplot2_part2/#comments</a></p> <p><a title="http://blog.funature.net/tag/ggplot/" href="http://blog.funature.net/tag/ggplot/">http://blog.funature.net/tag/ggplot/</a></p> <p>二、代码加注释</p> <p>####安装依赖包,并加载##### <br />if (require('DMwR') == 0) { <br />&#160;&#160;&#160; install.packages('DMwR') <br />&#160;&#160;&#160; <br />} <br />if (require('ggplot2') == 0) { <br />&#160;&#160;&#160; install.packages('Rcpp') <br />&#160;&#160;&#160; install.packages('ggplot2') <br />} <br />library('DMwR') <br />library('ggplot2')</p> <p>####数据可视化##### <br />View(head(algae)) <br />summary(algae) <br />##绘制箱线图并且旋转坐标轴 <br />myp &lt;- ggplot(algae) <br />myp + geom_boxplot(aes(x = size, y = a1), horizontal = T) + coord_flip()</p> <p>####缺失值处理##### <br />##查找非缺失值行 <br />nrow(algae[complete.cases(algae), ]) <br />##查找每行的缺失值的个数 第二个参数 1 表示行 2 表示列(传递给后面的函数) <br />apply(algae, 2, function(x) sum(is.na(x))) <br />##缺失值处理一、用次数最多的那个数据填补缺失值 <br />#直接剔除缺失属性比样本个数的20%还要多的样本 <br />dalgae &lt;- algae[-manyNAs(algae, 0.2), ] <br />#利用样本的中心趋势填充缺失值 <br />dalgae &lt;- centralImputation(algae) <br />##缺失值处理二、通过变量的相关关系填补缺失值 <br />#计算变量之间的相关关系 <br />cormatrix &lt;- cor(dalgae[, 4:18], use = &quot;complete.obs&quot;) <br />#更加直观的查看 <br />symnum(cormatrix) <br />##缺失值处理二、通过样本的相似度填补缺失值(第一步:一定要去量纲) <br />dalgae &lt;- algae[-manyNAs(algae, 0.2), ] <br />##考虑最近的十个样本,加权平均 <br />dalgae &lt;- knnImputiation(dalgae, 10) <br />##考虑用中位数填补 <br />dalgae &lt;- knnImputiation(dalgae, 10, meth = &quot;media&quot;) </p>

展开阅读全文
打赏
0
0 收藏
分享
加载中
更多评论
打赏
0 评论
0 收藏
0
分享
返回顶部
顶部