文档章节

大数据系列9:Mahout – 机器学习

杨尚川
 杨尚川
发布于 2015/04/07 00:22
字数 216
阅读 127
收藏 0

wget http://mirrors.ustc.edu.cn/apache/mahout/0.8/mahout-distribution-0.8.tar.gz

tar -xzvf mahout-distribution-0.8.tar.gz

cd mahout-distribution-0.8

sudo vi /etc/profile

增加:

    export PATH=$PATH:/home/ysc/mahout-distribution-0.8/bin

source /etc/profile

数据:hadoop fs -put clustering_material.txt testdata/clustering_material.txt

聚类1mahoutorg.apache.mahout.clustering.syntheticcontrol.kmeans.Job

分析1mahout clusterdump --input output/clusters-10-final --pointsDir output/clusteredPoints --output output/clusteranalyze_kmeans.txt

查看:

    hadoopfs -lsr output

    more  output/clusteranalyze_kmeans.txt

    VL-19代表这是一个clustern=161代表该cluster161个点,c=[...]代表该cluster的中心向量点,r=[...]代表cluster的半径

聚类2mahout org.apache.mahout.clustering.syntheticcontrol.canopy.Job

分析2mahout clusterdump --input output/clusters-0-final --pointsDir output/clusteredPoints --output output/clusteranalyze_canopy.txt

聚类3mahout org.apache.mahout.clustering.syntheticcontrol.fuzzykmeans.Job

分析3mahout clusterdump --input output/clusters-6-final --pointsDir output/clusteredPoints --output output/clusteranalyze_fuzzykmeans.txt

聚类4mahout org.apache.mahout.clustering.syntheticcontrol.dirichlet.Job

分析4mahout clusterdump --input output/clusters-5-final --pointsDir output/clusteredPoints --output output/clusteranalyze_dirichlet.txt

聚类5mahout org.apache.mahout.clustering.syntheticcontrol.meanshift.Job

分析5mahout clusterdump --input output/clusters-3-final --pointsDir output/clusteredPoints --output output/clusteranalyze_meanshift.txt

 

 

 

 

 

 

APDPlat旗下十大开源项目

 

 

 

 

 

 


© 著作权归作者所有

杨尚川

杨尚川

粉丝 1103
博文 220
码字总数 1624053
作品 12
东城
架构师
私信 提问
Apache Mahout 0.10.1 发布

Apache Mahout 0.10.1 发布,此版本是 Mahout 0.10.0 版本的修复版本,修复了一些 bugs,升级 Spark 到 Spark 1.2.2 版本,现已提供下载:http://www.apache.org/dist/mahout/0.10.1/。 值得...

oschina
2015/06/01
1K
1
Apache Mahout 0.8 发布,机器学习库

Apache Mahout 0.8 发布了,Apache Mahout 是 Apache Software Foundation (ASF) 开发的一个全新的开源项目,其主要目标是创建一些可伸缩的机器学习算法,供开发人员在 Apache 在许可下免费使...

oschina
2013/07/26
2.9K
1
Apache Mahout 0.11.1 发布,机器学习库

Apache Mahout PMC 发布了 Mahout 0.11.1 版本,现已提供下载: http://www.apache.org/dist/mahout/0.11.1/ Mahout 0.11.0 扩展了与 Spark 版本的兼容性,引入了一些新特性和 bug 修复。 Ma...

oschina
2015/11/08
1K
0
Mahout 0.10.0 发布,机器学习库

Mahout 0.10.0 发布,此版本主要更新信息如下: MAHOUT-1630: Incorrect SparseColumnMatrix.numSlices() causes IndexException in toString() (Oleg Nitz, smarthi) MAHOUT-1665: Update h......

oschina
2015/04/10
3.1K
10
Mahout 安装、配置

Mahout 的安装 Mahout是 Hadoop 的一种高级应用。运行 Mahout 需要提前安装好 Hadoop,Linux 上 Hadoop 的安装配置可以参考文章: linux 上 JDK 的安装于配置 SSH 无密码登陆的实现 Hadoop 伪...

荔枝壳
2013/11/21
4.4K
0

没有更多内容

加载失败,请刷新页面

加载更多

nginx访问日志/日志切割/静态文件过期时间/防盗链

Nginx访问日志主要记录部署在nginx上的网站访问数据,日志格式定义在nginx主配置文件中。 nginx主配置文件:/etc/nginx/nginx.conf 查看nginx主配置文件: ```markup [root@linux ~]# cat /e...

asnfuy
23分钟前
8
0
JS_高程4.变量,作用域和内存问题(2)执行环境及作用域

本文转载于:专业的前端网站➨JS_高程4.变量,作用域和内存问题(2)执行环境及作用域 1.执行环境:执行环境定义了变量或函数有权访问的其他数据,决定了它们各自的行为,       每个执...

前端老手
27分钟前
5
0
手机迅雷下载的文件,电脑上找不到问题

不知道手机迅雷怎么做到的,手机迅雷下载的文件,手机上可以看的到 但连电脑后, 电脑上看不到文件 . 尝试了打开查看隐藏文件, 但没有效果 . 手机上查询文件权限 也是对的 . 可读,可写, 不隐藏 ...

ol_O_O_lo
28分钟前
5
0
python学习11:Python tuple元组详解

元组是 Python 中另一个重要的序列结构,和列表类似,也是由一系列按特定顺序排序的元素组成。和列表不同的是,列表可以任意操作元素,是可变序列;而元组是不可变序列,即元组中的元素不可以...

太空堡垒185
41分钟前
5
0
Java实现数据结构之线性结构

一、顺序表 顺序表本质是使用数组储存数组的一种数据结构,在计算机的储存中是连续的分配内存的。 下面是我自己使用java实现的简单顺序表结构 package list; public class MyArrayList<E> { ...

daxiongdi
43分钟前
6
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部