文档章节

Weka开发[9]—KMeans源码介绍

pior
 pior
发布于 2015/10/17 22:44
字数 1080
阅读 221
收藏 4
点赞 0
评论 0

以前介绍的都是分类的内容,这一次介绍聚类,以最简单的SimpleKMeans源码为例。

       分类中训练一个分类器是用buildClassifier(),在聚类中学习一个Clusterer是用buildCluster()。分类中分类一个样本是用classifyInstance,而在聚类中是用clusterInstance。那我怎么知道这些的呢?(或者说:你怎么知道我是不是在骗你呢?)以ID3为例,你可以看出它继承自Classifier类,进入Classifier类,它有三个比较重要的函数,buildClassifer, classifyInstance, distributionForInstance(这个应该讲过了)。那么如果你在看SimpleKMeans那么可以看它继承自RandomizableCluster,而RandomizableCluster又继承自AbstactCluter,进入AbstactCluster,它也有三个比较重要的函数,buildCluster, clusterInstance, distributionForInstance。关联规则的自己找。但所有的这些最初我是如何知道的呢?同学告诉我的,我也问过他最初如何知道的呢?他神秘地告诉我:源代码。

for (int j = initInstances.numInstances() - 1; j >= 0; j--) {
    instIndex = RandomO.nextInt(j + 1);
    hk = new DecisionTableHashKey(initInstances.instance(instIndex),
           initInstances.numAttributes(), true);
    if (!initC.containsKey(hk)) {
       m_ClusterCentroids.add(initInstances.instance(instIndex));
       initC.put(hk, null);
    }
    initInstances.swap(j, instIndex);
 
    if (m_ClusterCentroids.numInstances() == m_NumClusters) {
       break;
    }
}


以上是随机产生centroid的代码,也没什么特别之处,用RandomO产生一个index,如果这个index所指向的样本不是一个中心点了(用Hash表记录),把这个样本加入m_ClusterCentroids中,m_ClusterCentroids中保存的是所有中心点。最后一个if判断如果产生了用户最初设置的cluster的个数,break。

 

   for (i = 0; i < instances.numInstances(); i++) {
       Instance toCluster = instances.instance(i);
       int newC = clusterProcessedInstance(toCluster, true);
       if (newC != clusterAssignments[i]) {
           converged = false;
       }
       clusterAssignments[i] = newC;
    }


    对每一个样本,用clusterProcessedInstance函数判断它属于哪个cluster,它属于哪个cluster当然就是根据它离哪个centroid近来决定了,再判断新的cluster和以前的cluster是否一样,如果不一样,那么就还没有convergeclusterAssignments[i]是第i个样本属于某个cluster

// update centroids
m_ClusterCentroids = new Instances(instances, m_NumClusters);
for (i = 0; i < m_NumClusters; i++) {
    tempI[i] = new Instances(instances, 0);
}
for (i = 0; i < instances.numInstances(); i++) {
    tempI[clusterAssignments[i]].add(instances.instance(i));
}
for (i = 0; i < m_NumClusters; i++) {
    if (tempI[i].numInstances() == 0) {
    // empty cluster
    emptyClusterCount++;
    } else {
       moveCentroid(i, tempI[i], true);
    }
}


以上代码是更新centroid,TempI[i]中保存的是所以当前属于第i个cluster的所有样本。最后一个for循环,如果tempI[i]中没有样本,那么记录有一个空cluster,如果tempI[i]中有样本,moveCentroid函数移动中心点。moveCentroid这个函数稍稍介绍一下,先看代码前的三句注释,我这里就不翻译了:

// in case of Euclidian distance the centroid is the mean point
// in case of Manhattan distance the centroid is the median point
// in both cases, if the attribute is nominal, the centroid is the mode
if (m_DistanceFunction instanceof EuclideanDistance
                  || members.attribute(j).isNominal()) {
    vals[j] = members.meanOrMode(j);
} else if (m_DistanceFunction instanceof ManhattanDistance) {
    // singleton special case
    if (members.numInstances() == 1) {
       vals[j] = members.instance(0).value(j);
    } else {
       sortedMembers.kthSmallestValue(j, middle + 1);
       vals[j] = sortedMembers.instance(middle).value(j);
       if (dataIsEven) {
           sortedMembers.kthSmallestValue(j, middle + 2);
    vals[j] = (vals[j] + sortedMembers.instance(middle + 
1).value(j)) / 2;
       }
    }
}


    这里有一点我不太明白的是:为什么代码不用ifelse把奇数,偶数分开,而是在偶数样本时计算两次,这种代码实在让我有点无法接受。有点需要解释的是为什么偶数的是时候用的是middle+2,这是因为这个coder在求middle的时候用的是(members.numInstances() - 1) / 2;这样如果是偶数实际求出来的middle就小1,另一点是因为数数是从0数起(讲这个有点污辱人了),所以是+2。这也是我吐血的一点,不就多写两行代码吗?何必把代码写的这么古怪。

对于每个属性,对于不同的距离公式,对于离散/连续属性,选择不同确定中心的方式。

    判断聚类是否结束,第一种是如果每一个样本(也就是第二段代码)都在上一次产生的cluster中,也就是converged,另一种是用户设计的一个m_MaxIterations,如果达到最大迭代次数,也结束。

再看一下clusterInstance函数,请注意,它最后调用的clusterProcessedInstance, 刚才提了一下这个函数,这里把核心代码列出来:

for (int i = 0; i < m_NumClusters; i++) {
    double dist = m_DistanceFunction.distance(instance,
       m_ClusterCentroids.instance(i));
    if (dist < minDist) {
       minDist = dist;
       bestCluster = i;
    }
}


讲这种代码,实在没什么意思,就是比较m_NumClusters个中心点,看instance与哪一个中心点近,作为bestCluster返回。


本文转载自:

共有 人打赏支持
pior
粉丝 25
博文 151
码字总数 22496
作品 0
济南
高级程序员
运行不了,程序错误,可能是kmeans.setDistanceFunction(distF);

@abstract 你好,想跟你请教个问题: package driftingDetection; import java.io.File; import java.io.FileWriter; import java.io.IOException; import moa.classifiers.bayes.NaiveBayes......

abstract
2016/10/21
54
0
Weka开发[6]-参数设置

这一次介绍的非常简单,会用传命令行参数的人就不用浪费时间看这一篇了,这一篇介绍weka中一些类参数传递的问题。 首先要传递参数当然要知道参数有哪些,有什么作用,要知道这些,建议用Wek...

pior
2015/10/17
79
0
数据挖掘和R包(转)

下面列出了可用于数据挖掘的R包和函数的集合。其中一些不是专门为了数据挖掘而开发,但数据挖掘过程中这些包能帮我们不少忙,所以也包含进来。 1、聚类 2、分类 3、关联规则与频繁项集 4、序...

MtrS
2016/04/26
45
0
Spark MLlib 机器学习算法与源码解析(网络课程—第一期)

《Spark MLlib 机器学习算法与源码解析》 spark是一个开源集群运算框架,最初是由加州大学柏克利分校AMPLab所开发。Spark使用了内存内运算技术,在内存上的运算速度比Hadoop MapReduce的运算...

sunbow0
2016/05/11
0
0
与数据挖掘有关或有帮助的R包和函数的集合

与数据挖掘有关或者有帮助的R包和函数的集合。 1、聚类 常用的包:fpc,cluster,pvclust,mclust 基于划分的方法:kmeans,pam,pamk,clara 基于层次的方法:hclust,pvclust,agnes,diana 基于模...

dongzhumao
2015/01/28
0
0
Python3机器学习实践:Kmeans++聚类【实例:啤酒聚类】

下面介绍Kmeans以及Kmeans++算法理论以及算法步骤: 根据样本特征选择不同的距离公式,程序实例中采用欧几里得距离。下面分别给出Kmeans以及Kmeans++算法的步骤。 Kmeans聚类算法的结果会因为...

AiFan
07/02
0
0
Weka开发[5]-半监督算法

这次介绍一个我现在正在做的半监督算法,因为我只是提出一个框架,半监督算法只是一个工具,可是为了找这个工具也让我花了不少功夫。现在介绍的暂时不是Weka的一部分,但开发者是waikato大学...

pior
2015/10/17
46
0
C++ 的机器学习库--MLPACK

mlpack是一个C++的机器学习库,它重点在于其扩展性、高速性和易用性。它的目的是让新用户通过简单、一致的API使用机器学习,同时为专业用户提供C++的高性能和最大灵活性。他的性能超出大量类...

红薯
2013/08/26
7K
0
Weka 开发[1]-Instances类

言归正传,开始介绍Weka,先google一下,把Weka软件下载下来,在Weka的目录中有一个weka.jar的包。 把包添加到工程中后,就可以调用weka中的函数了。 再介绍一点weka的基本知识,在weka的目录...

pior
2015/10/17
217
0
用 WEKA 进行数据挖掘

什么是 数据挖掘?您会不时地问自己这个问题,因为这个主题越来越得到技术界的关注。您可能听说过像 Google 和 Yahoo! 这样的公司都在生成有关其所有用户的数十亿的数据点,您不禁疑惑,“它...

红薯
2010/05/21
9.9K
12

没有更多内容

加载失败,请刷新页面

加载更多

下一页

Spring+jpaNo transactional EntityManager available

TransactionRequiredException: No transactional EntityManager availableEntityManager执行以下方法(refresh, persist, flush, joinTransaction, remove, merge) 都需要需要事务i......

wpfc
9分钟前
0
0
八幅漫画理解使用JSON Web Token设计单点登录系统

八幅漫画理解使用JSON Web Token设计单点登录系统 Sep 07, 2015 in Engineering 上次在《JSON Web Token - 在Web应用间安全地传递信息》中我提到了JSON Web Token可以用来设计单点登录系统。...

祖冲之
11分钟前
0
0
Spring框架中的设计模式(三)

Spring框架中的设计模式(三) 原创: 瑞查德-Jack 在之前的两篇文章中,我们看到了一些在Spring框架中实现的设计模式。这一次我们会发现这个流行框架使用的3种新模式。 本文将从描述两个创意...

瑞查德-Jack
14分钟前
0
0
[MicroPython]TPYBoard智能小车“飞奔的TPYBoard装甲一号”

智能小车作为现代的新发明,是以后的发展方向,他可以按照预先设定的模式在一个环境里自动的运作,不需要人为的管理,可应用于科学勘探等等的用途。智能小车能够实时显示时间、速度、里程,具...

bodasisiter
16分钟前
0
0
桌面虚拟化VDI(Virtual Desktop Infrastructure)

为了保证员工(客户)不把公司的资料复制、传输给别人。可以把员工平时办公放在服务器上做。所以使用桌面虚拟化。就是把一个服务器虚拟出很多桌面系统(如:windows)。 桌面虚拟化最大的优势...

王坤charlie
23分钟前
2
0
自我审视及职业规划

啊哈,不知不觉已经工作了3年了。程序员作为一门技术工作,如果分级的话我的能力如何呢?该怎么提升呢? 话说,我现在的能力属于中低级的层次吧,努力在向高级努力。为什么这么说呢: 因为我觉...

一口今心
25分钟前
1
0
《PHP和MySQL Web 开发》 第12章 MySQL高级管理

我决定好好写学习笔记了,对应上书上的目录和重要信息。不瞎jb写了。从这章开始吧,然后之前写的会编辑后重发。嗯,就酱。 12.1 深入理解权限系统 妈蛋 开头就卡住了。。。我先回去修改之前的...

十万猛虎下画山
26分钟前
1
0
Python 3.6:多态的实现

多态的作用不用多说,C++用如下条件来实现多态: 要有继承 要有虚函数函数重写 要有父类指针(父类引用)指向子类对象 实际上C++使用VPTR指针来完成这个事情,其是设计模式的基础,软件分层的基...

全部原谅
26分钟前
0
0
纯Python实现鸢尾属植物数据集神经网络模型[图]

纯Python实现鸢尾属植物数据集神经网络模型[图]: 尝试使用过各大公司推出的植物识别APP吗?比如微软识花、花伴侣等这些APP。当你看到一朵不知道学名的花时,只需要打开植物识别APP,拍摄一张...

原创小博客
28分钟前
1
0
2018安卓巴士开发者大会打造Android技术盛宴

2018安卓巴士开发者大会打造Android技术盛宴2018安卓巴士开发者大会将于8月25日在上海举行,作为中国最具前沿性、专业性的安卓技术会议,将邀请来自爱奇艺、阿里、饿了么等知名企业的一线工程...

逆鳞龙
30分钟前
0
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部