文档章节

【转载】必看:数据平台的搭建教程及软件工具

 老衲大海
发布于 2017/08/11 14:23
字数 1293
阅读 15
收藏 0
点赞 0
评论 0

按系统功能分,不同的数据平台对应着不同的常用软件。在大数据兴盛的今天,欲进军数据界的你,应该对此有更进一步的了解。




1.数据挖掘模块
作为一个跨学科的计算机科学分支,数据挖掘是用人工智能、机器学习、统计学和数据库的交叉方法在相对较大型的数据集中发现模式的计算过程,属于非传统的数据处理。相对于传统ETL数据处理,数据挖掘更侧重于知识发现,其计算和规则也更加复杂。
【现阶段常用的数据挖掘软件】AnalysisService、KNIME、KXENAnalyticFramework、MicrosoftSQLServer、OracleDataMining、Python、R语言、RapidMiner、SAS、SPSS、Weka等。
2.ETL模块
目前,对于传统ETL,大部分ETL软件都可以胜任;但是对于大数据下的ETL,ETL工具对其支持非常有限。
Informatica为大数据下的ETL开发推出InformaticaBigData版本,它将之前的Mapping翻译为HQL脚本,从而在Hive引擎上执行。IBM的DataStage则通过相应BalancedOptimizer实现Mapping到Netezza、Oracle和DB2等专用数据库的脚本翻译,以利用不同的更为强大的数据处理引擎。TalendETL则把Mapping翻译为SparkSQL,从而利用Spark引擎对数据进行处理。



【现阶段常用的ETL软件】IBMDataStageandQualityStage、InformaticaPowerCenter、MicrosoftIntegrationService、OracleOWB、PentahoDataIntegration(Kettle)、TalendETL等,主要表现为通过拖拽和配置的方式可视化、免编码地完成ETL工作;脚本包括标准AWK、HQL、Java、Pig、PL/SQL、Python、Ruby、SparkSQL、SQL等,主要表现为通过特定的语法进行编码实现ETL工作。
3.调度模块
调度模块,可以对企业内跨平台和跨主机的软硬件资源进行统一调度。这些资源包括ETL主机、数据交换主机、报表主机、数据库主机、DQ主机、邮件服务器和打印机等。
【现阶段常用的调度软件】ApacheOozie、AsisinfoScheduleServer、AutoSys、BMCControl-M、TaskCtl、JobServer、LinkedinAzkaban、MoiaControl等。这些调度软件往往提供GUI和CLI的配置方式,其中Control-M在大企业中用的最多,TaskCtl在中小型企业中用的最多。



4.数据交换模块
数据交换模块,包括数据导入和数据导出。数据导入包括文件日志接入、数据库日志接入、关系型数据库接入和应用程序接入等。
【现阶段常用的数据交换软件】文件日志接入可采用Flume等;数据库日志接入则往往需要开发特定的插件来读取MySQL、Oracle和SQLServer等的数据库日志或变更表;关系型数据库和NoSQL数据库接入则使用ApacheSqoop、大众点评wormhole、TaobaoDataX等;应用程序接入则通过应用程序对外接口进行接入。
5.报表模块
报表工具的学习成本和开发难度比起手工编写页面来说,无疑更低,而且,它的开发周期和项目风险也得到了有效的控制。
【现阶段常用的报表软件】
BusinessObject、CrystalReports、FineReport、IBMCognos、JasperReport、MicrosoftReportService、MicroStrategy、Pentaho、Tableau等。这些报表软件多数都提供了列表、交叉表、图表、地图和仪表板的能力。
6.监控模块
监控模块,可以对系统硬件(交换机、路由器和主机等的电力、通信、磁盘、内存、CPU等)、系统软件(Web服务器、中间件服务器、数据库服务器和缓存服务器等的资源、连接数和负载等)和数据(数据的一致性、稳定性和可靠性等)进行实时监控,发现问题及时告警甚至按预设方案自动进行处理。



【现阶段常用的监控软件】Argus、Cacti、Collectd、Ganglia、Monit、Munin、Nagios、Observium、Zabbix、Zenoss等。
7.DQ模块
DQ模块,主要对数据质量进行控制,包括源数据的质量检查、数据清洗、数据融合和数据监控等,贯穿数据处理的整个生命周期。尽管DQ模块非常重要,但是目前好些数据处理项目都没有专门的DQ模块,这些功能以脚本形式零散分布于不同的作业中。
【现阶段常用的DQ软件】AggregateProfilier、DataCleaner、IBMQualityStage、InformaticaDataQuality、InformaticaMasterDataManagement、StudioforDataQuality、TalendOpen等。
8.资产权限模块
资产权限模块,能够统一对一些无形资产(企业的各种数据库表、视图、ETL作业、报表、邮件等)进行权限管控,保障信息安全和共享。该模块完整实现的工作量还是比较大的,多数企业都会借助不同软件自带的权限管理能力,形成分散的资产权限模块。
【现阶段常用的资产权限软件】并没有完全开箱即用的资产权限模块。
想要纵横大数据世界,傍身技能必不可少,善用工具能让你百战不殆!




來源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

© 著作权归作者所有

共有 人打赏支持
粉丝 2
博文 20
码字总数 13635
作品 0
石家庄
游戏公司常用的工具

SecureCRT 基本定义SecureCRT是一款支持SSH(SSH1和SSH2)的终端仿真程序,简单的说是Windows下登录UNIX或Linux服务器主机的软件 Sencha Animator HTML5 和 CSS3制作动画专用工具,类似于fla...

zchd ⋅ 2013/06/08 ⋅ 0

量化工具介绍

做量化要有必要的工具。下面简单介绍一下我用的工具: (一) 软件推荐:python 常用的量化软件有python、matlab、java、C++。从开发难度而言python和matlab都比较容易,java和C++麻烦一些。从运...

JDquant ⋅ 2017/08/15 ⋅ 0

【腾讯云的1001种玩法】微信个人订阅号后台server搭建入门教程

搭建公众号后台server 以腾讯云自带的ubuntu14.04为例: 1.安装nginx+php7+mysql5,以及需要的扩展; 由于ubuntu14.04默认软件库为php5,需要加入第三方库,来apt-get方式安装PHP7; 当然,也...

⋅ 2017/12/18 ⋅ 0

推荐几篇好的博文

推荐网址: UI设计类: 源代码托管: 移动开发 界面优化 兼容屏幕 布局详解 JNI入门 AndroidMk NDK相关问题 NDK_GDB调试 CrystaX CSDN每周博文 其它博客 开发工具问题 源码控制工具 混淆反编 ...

postdep ⋅ 2014/12/09 ⋅ 0

推荐几篇好的博文

Android Fragment应用实战,使用碎片向ActivityGroup说再见 Android手机平板两不误,使用Fragment实现兼容手机和平板的程序 Android事件分发机制完全解析,带你从源码的角度彻底理解(上) And...

军歌 ⋅ 2014/02/20 ⋅ 0

Windows Azure 超值体验1元一个月,还可获得CSDN 500C币

在CSDN首页上看到Windows Azure 超值体验1元一个月的广告,最重要的是参与活动还可获得CSDN 500C币,果断参加一下。 Windows Azure是什么? Windows Azure 是一个开放而灵活的云平台,通过该...

微wx笑 ⋅ 2015/02/07 ⋅ 0

一张图告诉你什么是系统架构师

image.png 这张图从架构师的综合能力、岗位认识、岗位职责等方面,清楚的画出了作为一个架构的基本准则。人人都想成为架构师,可作为架构你达到了上面的要求了吗? 系统架构师是个神奇的岗位...

架构之路 ⋅ 01/08 ⋅ 0

三维力控接入多比物联网云平台教程

一.OPC环境搭建(整个过程中,请保持数据源的活跃) 在需要采集的OPC数据源所在的PC上先安装在两个文件:解压SymBrgOPCClient和SZLog; 先安装SQLog,运行install;安装SymBrgOPCClient运行i...

fanganw ⋅ 2016/12/28 ⋅ 0

Apache基础教程

Apache是世界使用排名第一的Web服务器软件。它可以运行在几乎所有广泛使用的计算机平台上,由于其跨平台和安全性被广泛使用,是最流行的Web服务器端软件之一。它快速、可靠并且可通过简单的A...

外星人et59 ⋅ 2016/03/23 ⋅ 0

Apache基础教程

Apache是世界使用排名第一的Web服务器软件。它可以运行在几乎所有广泛使用的计算机平台上,由于其跨平台和安全性被广泛使用,是最流行的Web服务器端软件之一。它快速、可靠并且可通过简单的A...

harries ⋅ 2016/03/23 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

IDEA创建SpringMVC+Mybatis+Maven项目

视频如下(加载有点慢请见谅,服务器不太好): 视频

影狼 ⋅ 9分钟前 ⋅ 0

前阿里P8架构师:精准定制Java架构师学习计划!

可以说,Java是现阶段中国互联网公司中,覆盖度最广的研发语言,掌握了Java技术体系,不管在成熟的大公司,快速发展的公司,还是创业阶段的公司,都能有立足之地。 有不少朋友问,除了掌握J...

java高级架构牛人 ⋅ 12分钟前 ⋅ 0

zookeper学习

https://blog.csdn.net/u012152619/article/category/6470028

~少司命~ ⋅ 14分钟前 ⋅ 0

Spring MVC ,JSON,JQuery,不懂JQuery,跳过了

/spring-mvc-study/src/main/webapp/course_json.jsp <%@ page language="java" contentType="text/html; charset=UTF-8"pageEncoding="UTF-8"%><!DOCTYPE html PUBLIC "-//W3C//DTD ......

颖伙虫 ⋅ 14分钟前 ⋅ 0

2018上海云栖大会workshop-日志数据采集与分析对接

摘要: 日志数据采集与分析对接 课程描述 通过日志服务采集用户、数据库、业务等访问数据。演示对于业务日志分析与处理,程序日志查询与监控,打通日志与数据仓库对接案例。 日志种类 网站访...

阿里云云栖社区 ⋅ 15分钟前 ⋅ 0

mahout demo

package com.datamine.CollaborativeFiltering.mysql; import org.apache.mahout.cf.taste.impl.neighborhood.NearestNUserNeighborhood; import org.apache.mahout.cf.taste.impl.recommend......

xiaomin0322 ⋅ 16分钟前 ⋅ 0

red hat openstack 12配置要求

安装 openstack 之前,一般要规划整个系统中,到底要多少台机器来参与openstack, 根据rhosp12的官方文档: 最低要求是3台物理机,1台作为director,一台作为 controller ,一台作为computer....

tututu_jiang ⋅ 17分钟前 ⋅ 0

Rocket-Chip在GitHub上的各个源码

在github上通过搜索Rocket-chip可以得到36个结果:其中 https://github.com/freechipsproject/rocket-chip https://github.com/ucb-bar/riscv-boom https://github.com/ucb-bar/fpga-zynq (......

whoisliang ⋅ 23分钟前 ⋅ 0

【HAVENT原创】CentOS 6.5 下 Nginx 的安装与配置

nginx是轻量级的Web服务器、反向代理服务器及邮件服务器,具有占用内存少,并发能力强的优点,已被广泛应用。本文介绍目前最新版本 1.12.2 的安装。 各版本nginx下载地址:http://nginx.org/...

HAVENT ⋅ 29分钟前 ⋅ 0

查看linux系统重启之前的log -- last_kmsg

当 Linux Kernel 出现 BUG 的时候,后走入 panic flow,这个时候由于 Kernel 出现了严重的问题,adbd 也无法响应 adb 连接请求,这个时候想透过读取 Kernel Log Buffer 来看 Kernel Log 是不...

zyzzu ⋅ 30分钟前 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部