加载中
Hadoop Introduction

1 简介 HDFS分布式文件系统,即Hadoop Distributed Filesystem,是一个分布式文件系统,被设计部署在廉价硬件上。HDFS是一个高容错,被设计部署在廉价硬件上。HDFS提供高吞吐量访问数据,并且...

Bash Shell环境下编译打包MapReduce程序

摘自MapReduce Tutorial. 本文主要内容是在Linux Bash环境下进行Hadoop MapReduce的程序编译及打包。 某些生产环境,存在多层安全加固,导致将IDE中jar包上传至服务器是一件费事费力的事情,...

2016/08/31 11:56
43
eclipse+MapReduce

一、部署准备 操作系统:Centos7.2 Hadoop版本:Apache Hadoop 2.6.4 Java版本:1.7.0_79 Eclipse版本:Mars 二、Eclipse开发环境设置 第一步、下载插件部署 hadoop2x-eclipse-plugin的githu...

HDFS Federation(翻译)

这个指南提供了一个关于HDFS Federation 特性和怎么配置管理一个联邦集群的概览。 Background HDFS主要包括两层: Namespace 由目录,文件和块组成 支持所有文件系统操作包括增加,删除,修改...

2017/08/15 17:42
20
Is Hadoop secure for the enterprise?

转自 <https://www.xplenty.com/blog/is-hadoop-secure-for-the-enterprise/> Is Hadoop secure for the enterprise? This is the question that data analysts must answer if they want to...

2018/11/28 20:47
16
hadoop命令执行hbase应用jar包时的环境变量加载问题

#问题描述 使用hadoop命令执行hbase应用jar包时,报如下错误: [hadoop@ breath ~]$ hadoop jar ~/HbaseTest-0.1.jar Test.HtableCreate Exception in thread "main" java.lang.NoClassDefFo...

Apache Slider编译安装

Apache Slider 简介 Apache Slider目前是Apache二级孵化项目,主要用途是在YARN上部署用户已有的服务或者组件,如:hbase,storm,kafka. 下载地址:Apache Slider Download,目前最新0.91.0版本 ...

flume-ng学习

简介 Flume简要来说是,是分布式实时数据采集系统,能够监控多种数据来源,然后传输给多种数据目标。常用的数据来源有日志文件、Socket、Kafka等;常见的数据目标有HDFS、Hbase、文件、Kafka...

MapReduce的maven依赖

<properties> <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding> <hadoop.version>2.6.0</hadoop.version> </properties> <dependencies> <dependency> <groupId>org.apa...

MapReduce源码之DBInputFormat

DBInputFormat是读取关系型数据库数据表的一种实现。这一部分也是Sqoop从关系型数据库将数据导入HDFS的实现。 /** * A InputFormat that reads input data from an SQL table. * <p> * DBInp...

编译impala

Install Dependencies for root user Install Rpms yum install -y libevent-devel automake libtool flex bison gcc-c++ openssl-devel make cmake doxygen glib-devel python-devel bzip2-...

Sqoop集成Teradata驱动

#Teradata Sqoop部署过程 ##驱动包下载 下载sqoop-connector-teradata.jar sqoop-connector-teradata-1.6c5.jar 下载teradata jdbc jar terajdbc4.jar tdgssconfig.jar 拷贝至$SQOOP_HOME/l...

2016/11/02 18:30
105
Cloudera Manager中Uber模式下MapReduce任务执行无法加载Native Libraries

##问题现象 Cloudera Manager(以下简称CM)安装CDH,在Hive中执行任务,MapReduce任务使用Uber模式运行,报如下错误: hive> select count(*) from test; Query ID = hdfs_20161013090909_7d...

ReduceTask执行流程

ReduceTask主要包含5个部分shuffle、Merge、Sort、Reduce、Write五个阶段。 Shuffle阶段:也成为Copy阶段。ReduceTask从各个MapTask上远程拷贝一片数据,并针对某一片数据,如果其大小超过一...

2017/08/09 12:14
105
数据行去重

Dedup import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; import org.apache.hadoo...

2016/08/29 18:26
16
hadoop编译+native+snappy

本文介绍了hadoop编译的详细流程,包括依赖的安装,以及支持native和snappy库。 snappy 安装snappy snappy github 地址:[snappy]https://github.com/google/snappy/releases "snappy")选择1...

Spark Java RDD基本操作

1、项目创建 关于Java:选用1.7或者1.8.为了通用性,本章内容使用1.7进行编写。 关于Scala:工程不需要增加scala nature,即不需Add Scala Nature。若增加在java代码中调用scala library会有...

没有更多内容

加载失败,请刷新页面

返回顶部
顶部