文档章节

进行数据挖掘的 8 个最佳开源工具

编辑部的故事
 编辑部的故事
发布于 2017/04/06 15:07
字数 819
阅读 3663
收藏 200

数据挖掘,又称为资料探勘、数据采矿。它是数据库知识发现(英语:Knowledge-Discovery in Databases,简称:KDD)中的一个步骤,是一个挖掘和分析大量数据并从中提取信息的过程。其中一些应用包括市场细分 - 如识别客户​​从特定品牌购买特定产品的特征,欺诈检测 - 识别可能导致在线欺诈的交易模式等。在本文中,我们整理了进行数据挖掘的 8 个最佳开源工具。

1、Weka

WEKA作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归、聚类、关联规则以及在新的交互式界面上的可视化。

2、Rapid Miner

RapidMiner是世界领先的数据挖掘解决方案,在一个非常大的程度上有着先进技术。它数据挖掘任务涉及范围广泛,包括各种数据艺术,能简化数据挖掘过程的设计和评价。

3、Orange

Orange 是一个基于组件的数据挖掘和机器学习软件套装,它的功能即友好,又很强大,快速而又多功能的可视化编程前端,以便浏览数据分析和可视化,基绑定了 Python以进行脚本开发。它包含了完整的一系列的组件以进行数据预处理,并提供了数据帐目,过渡,建模,模式评估和勘探的功能。其由C++ 和 Python开发,它的图形库是由跨平台的Qt框架开发。

4、Knime

KNIME (Konstanz Information Miner) 是一个用户友好,智能的,并有丰演的开源的数据集成,数据处理,数据分析和数据勘探平台。

5、jHepWork

jHepWork是一套功能完整的面向对象科学数据分析框架。 Jython宏是用来展示一维和二维直方图的数据。该程序包括许多工具,可以用来和二维三维的科学图形进行互动。

6、Apache Mahout

Apache Mahout 是 Apache Software Foundation (ASF) 开发的一个全新的开源项目,其主要目标是创建一些可伸缩的机器学习算法,供开发人员在 Apache 在许可下免费使用。该项目已经发展到了它的最二个年头,目前只有一个公共发行版。Mahout 包含许多实现,包括集群、分类、CP 和进化程序。此外,通过使用 Apache Hadoop 库,Mahout 可以有效地扩展到云中。

7、ELKI

ELKI(Environment for Developing KDD-Applications Supported by Index-Structures)主要用来聚类和找离群点。ELKI是类似于weka的数据挖掘平台,用java编写,有GUI图形界面。可以用来寻找离群点。

8、Rattle

Rattle(易于学习的 R 分析工具)提供数据的统计和可视化摘要,将数据转换成容易建模的形式,从数据中构建无监督和监督模型,以图形方式呈现模型的性能,并得出新的数据集。

责任编辑:开源中国 - 达尔文

转载请注明文章来源及作者

© 著作权归作者所有

编辑部的故事

编辑部的故事

粉丝 1469
博文 264
码字总数 512489
作品 0
深圳
运营/编辑
私信 提问
加载中

评论(4)

renoshen
renoshen
有错别字。
renoshen
renoshen
有错别字。
霡霂
霡霂

引用来自“zpwd63”的评论

请问“该项目已经发展到了他的最二个年头”是什么意义?书读得少。。。
意思是该项目发布已经一年多了。大概是这么个意思
zpwd63
zpwd63
请问“该项目已经发展到了他的最二个年头”是什么意义?书读得少。。。
大数据领域开源技术,除了 Hadoop 你还知道哪些?

众所周知,大数据正在以惊人的速度增长,几乎触及各行各业,许多组织都被迫寻找新的创造性方法来管理和控制如此庞大的数据,当然这么做的目的不只是管理和控制数据,而是要分析和挖掘其中的价...

王练
2016/10/05
5.7K
5
开源 BI 系统相关知识综合解读

这些众多的BI(商业智能)项目从规模和对BI系统支撑的完善程度上来说,大体可以分为Framework、Stand-aloneTools和BISuit三种类型。 Framework 开源框架,这是在商业BI系统中所没有的。我们可...

红薯
2009/05/05
842
0
开发者必看:8月 Python 热门开放源码

过去的一个月中,我们对 250个开源项目进行了排名,选出了最热门前10名。 在这段时间里,我们比较了新版本和主要发布版本的项目。我们的Mybridge AI 根据各种因素对项目进行排名,来衡量专业...

雷锋字幕组
2018/09/10
0
0
数据分析基础内容介绍 — 模型、工具、统计、挖掘与展现

1. 数据分析多层模型介绍 这个金字塔图像是数据分析的多层模型,从下往上一共有六层: 底下第一层称为Data Sources 元数据层。 比如说在生产线上,在生产的数据库里面,各种各样的数据,可能...

d1j4robv
2015/12/15
0
0
12 款图片快速优化和压缩工具

PS 很强大,但做为一个程序员,PS 太复杂了,太庞大了,我们经常需要的就是图片进行简单的处理即可。下面是 12 个小型的图片工具,可以让你快速的有针对性的进行图片处理。 1 Riot Riot 是最...

红薯
2011/09/05
11.8K
3

没有更多内容

加载失败,请刷新页面

加载更多

爬虫可以采集哪些数据?爬虫借用什么代理可以提高效率

学习爬虫的门槛非常低,特别是通过Python学习爬虫,即使是网上也能找到许多学习爬虫的方法,而且爬虫在数据采集方面效果比较好,比如可以采集几万、上百万网页数据进行分析,带来极有价值的数...

xiaotaomi
28分钟前
4
0
redis自建笔记

自建redis笔记 最近在linux安装了一下redis,特做一些笔记! 本文先单节点启动redis,然后再进行持久化配置,在次基础上,再分享搭建主从模式的配置以及Sentinel 哨兵模式及集群的搭建 单节点...

北极之北
30分钟前
4
0
没想到Spring Boot居然这么耗内存,有点惊讶

Spring Boot总体来说,搭建还是比较容易的,特别是Spring Cloud全家桶,简称亲民微服务,但在发展趋势中,容器化技术已经成熟,面对巨耗内存的Spring Boot,小公司表示用不起。如今,很多刚诞...

程序员修BUG
33分钟前
4
0
Spring Security 实战干货:Spring Boot 中的 Spring Security 自动配置初探

1. 前言 我们在前几篇对 Spring Security 的用户信息管理机制,密码机制进行了探讨。我们发现 Spring Security Starter相关的 Servlet 自动配置都在spring-boot-autoconfigure-2.1.9.RELEASE...

码农小胖哥
35分钟前
4
0
Docker 容器时区时间不一致 问题解决

解决方案: 1,最傻瓜也最方便的处理方式,运行新的容器前设置本机时区和时间文件与容器的映射 docker run -v /etc/timezone:/etc/timezone -v /etc/localtime:/etc/localtime ...1 -v /etc/...

突突突酱
37分钟前
5
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部