文档章节

weka实战001:一篇博文简单了解weka

brian_2017
 brian_2017
发布于 2017/01/17 09:43
字数 616
阅读 15
收藏 0

weka是java写的开源模式识别和数据挖掘软件,已经有十多年的历史了。weka的官网在http://www.cs.waikato.ac.nz/ml/weka/。


模式识别和数据挖掘有四个问题,

第一:问题是什么

第二:数据是什么

第三:如何学习

第四:学习结果可靠吗?


第一个问题来自需求。分析需求是很难的:严密的逻辑,深入了解行业宏观和细节,熟悉技术领域和学术领域的进展,有多个成功项目的实践经验,这四个因素缺一不可,所以通常由一个团队不同领域的精英合作完成。


weka不解决需求问题。


第二个问题是数据。每个样本对应一个weka的Instance,由多个样本组成的数据集对应weka的Instances,这是存储。对数据集,需要选择各种样本进行训练和测试,这里存在诸多的选择方法。比如,只选择部分样本进行训练和测试,处理属性缺失的样本,只选择部分属性进行训练和测试,如何对样本次序重排以改变训练和测试效果。如何以有监督或者无监督的方式选择样本及其属性。


第三个问题是学习。如果能精确定义第一个问题,那么第三个问题的答案也必然是清晰的。weka提供大量的算法,分类,回归,聚类,关联规则等等。对初学者而言,选择算法是个大问题,每种算法都各有好处,但又没有一种算法在大多数指标上好过其他算法。这里的诀窍就是大量的做实验并分析结果,做的多了自然就知道什么是好的。


第四个问题是验证学习器是否可靠。常用的方式就是交叉验证,五倍交叉或者十倍交叉。再配合网格调参。常规问题就可以解决了。


对大数据big data,weka的建议是,用命令行操作数据和训练,如果有可能,自己用groovy或者jython实现算法,或者使用可以增量学习的算法。它这么说的意思其实表明,weka目前还没有对big data做好准备,所以最好用它解决单机能搞定的问题。



© 著作权归作者所有

brian_2017
粉丝 3
博文 61
码字总数 145216
作品 0
私信 提问
Weka开发[5]-半监督算法

这次介绍一个我现在正在做的半监督算法,因为我只是提出一个框架,半监督算法只是一个工具,可是为了找这个工具也让我花了不少功夫。现在介绍的暂时不是Weka的一部分,但开发者是waikato大学...

pior
2015/10/17
95
0
Weka开发[6]-参数设置

这一次介绍的非常简单,会用传命令行参数的人就不用浪费时间看这一篇了,这一篇介绍weka中一些类参数传递的问题。 首先要传递参数当然要知道参数有哪些,有什么作用,要知道这些,建议用Wek...

pior
2015/10/17
143
0
Weka开发[7]-LibSVM

首先要提的是LibSVM是一个库,Lib很明显是library的缩写,有些人不知道怎么会认为它是一种算法。它是由中国台湾的Chih-Chung Chang和Chih-Jen Lin等人开发的,他们用多种语言实现写了LibSVM。...

pior
2015/10/17
254
0
数据挖掘简述和weka介绍--数据挖掘学习和weka使用(一)

写在开篇 weka用了一些时日了,觉得真心不错。功能很完善,而且是开源的。最重要的扩展方便,非常适合搞研究和做全国大学生数学建模之类的比赛。 我学习weka主要是看的一本数据挖掘和weka使用...

长平狐
2013/11/25
930
0
数据挖掘,回归得到model,进行预测

最近有个任务,是对已有的2400多条siRNA样本进行回归得到model,然后通过用户输入的一部分参数,给出用户要想得到的参数的预测值(机器学习的回归算法),通过网上了解,用java编程完成这个任...

sscust
2014/07/13
816
1

没有更多内容

加载失败,请刷新页面

加载更多

rime设置为默认简体

转载 https://github.com/ModerRAS/ModerRAS.github.io/blob/master/_posts/2018-11-07-rime%E8%AE%BE%E7%BD%AE%E4%B8%BA%E9%BB%98%E8%AE%A4%E7%AE%80%E4%BD%93.md 写在开始 我的Arch Linux上......

zhenruyan
今天
5
0
简述TCP的流量控制与拥塞控制

1. TCP流量控制 流量控制就是让发送方的发送速率不要太快,要让接收方来的及接收。 原理是通过确认报文中窗口字段来控制发送方的发送速率,发送方的发送窗口大小不能超过接收方给出窗口大小。...

鏡花水月
今天
9
0
OSChina 周日乱弹 —— 别问,问就是没空

Osc乱弹歌单(2019)请戳(这里) 【今日歌曲】 @tom_tdhzz :#今日歌曲推荐# 分享容祖儿/彭羚的单曲《心淡》: 《心淡》- 容祖儿/彭羚 手机党少年们想听歌,请使劲儿戳(这里) @wqp0010 :周...

小小编辑
今天
939
11
golang微服务框架go-micro 入门笔记2.1 micro工具之micro api

micro api micro 功能非常强大,本文将详细阐述micro api 命令行的功能 重要的事情说3次 本文全部代码https://idea.techidea8.com/open/idea.shtml?id=6 本文全部代码https://idea.techidea8....

非正式解决方案
今天
5
0
Spring Context 你真的懂了吗

今天介绍一下大家常见的一个单词 context 应该怎么去理解,正确的理解它有助于我们学习 spring 以及计算机系统中的其他知识。 1. context 是什么 我们经常在编程中见到 context 这个单词,当...

Java知其所以然
昨天
7
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部