加载中
【Zookeeper】zookeeper 安装说明

1.介绍 2.安装 2.1 下载 地址:http://www.apache.org/dyn/closer.cgi/zookeeper/ 选定版本下载: wget http://mirrors.hust.edu.cn/apache/zookeeper/ tar -zxvf zookeeper-3.3.6.tar.gz -...

【Kafka】kafka 安装使用说明

1.介绍 kafka的工作方式和其他MQ基本相同,只是在一些名词命名上有些不同。为了更好的讨论,这里对这些名词做简单解释。通过这些解释应该可以大致了解kafka MQ的工作方式。 Producer (P):...

【Zookeepr】zookeeper原理

ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,它包含一个简单的原语集,分布式应用程序可以基于它实现同步服务,配置维护和命名服务等。Zookeeper是hadoop的一个子项目,其发...

【Flink】5分钟从零构建第一个 Flink 应用

在本文中,我们将从零开始,教您如何构建第一个 Flink 应用程序。 开发环境准备 Flink 可以运行在 Linux, Max OS X, 或者是 Windows 上。为了开发 Flink 应用程序,在本地机器上需要有 Java...

【Flink】Flink Window 窗口机制

1.什么是Flink Window 我们都知道流是无界的,我们不能限制流,但可以在有一个有界的范围内处理无界的流数据, Window就是用来对一个无限的流设置一个有限的集合,在有界的数据集上进行操作的...

Hbase避免RowKey热点

RowKey设计不合理容易导致热点问题,即所有的访问集中在一个或几个结点之上,导致这些机器过载,性能下降。一些常用的避免热点的方法: 哈希 适用场景:1. 无需连续读取;2. RowKey较为复杂 ...

Logstash 配置nginx日志

介绍 配置 vim nginx_access.conf input { file { path => [ "/var/log/nginx/access.log" ] start_position => "beginning" ignore_older => 0 } } filter { grok {......

Elasticsearch权威指南(中文版)

https://www.gitbook.com/book/looly/elasticsearch-the-definitive-guide-cn/details

2016/11/21 21:16
161
Apche pig计算数据 导入Hbase

1.pig将数据导入或加载到hbase使用HBaseStorage UDF函数,地址: http://pig.apache.org/docs/r0.11.0/func.html#HBaseStorage 在shell中案例: pig -Dpig.additional.jars=/home/pps_recomm...

Hadoop生态系统组件

Hadoop生态系统的组件包括: HDFS:分布式文件系统 YARN:资源管理和调度 MapReduce:并行计算框架 HBase:可扩展的分布式NoSQL数据库 Hive:适合做ETL的大数据仓库,支持SQL查询语言,基于M...

Apche pig 数据导入hbase方法

1.pig将数据导入或加载到hbase使用HBaseStorage UDF函数,地址: http://pig.apache.org/docs/r0.11.0/func.html#HBaseStorage 在shell中案例: pig -Dpig.additional.jars=/home/pps_recomm...

Apache pig 学习

一.Pig安装说明 1.介绍 2.安装 2.1 获取PIG稳定版本 wget http://www.eu.apache.org/dist/pig/pig-0.11.0/pig-0.11.0.tar.gz (注:此版本适用于Hadoop的0.20.X,1.x中,0.23.X和2.X) SVN下...

Mahout环境安装说明

1.介绍 意思是大象的饲养者及驱赶者。Mahout 是一套具有可扩充能力的机器学习类库。它提供机器学习框架的同时,还实现了一些可扩展的机器学习领域经典算法的实现,可以帮助开发人员更加方便快...

HIVE 一行转多行输出办法

1.问题描述 hive UDF 格式:oc号1_an号1_次数;oc号2_an号2_次数 转换结果: oc号1 an号1 次数 oc号2 an号2 次数 一行转多行,一行转多列 2.实现思路 第一步分割:split('oc号1_an号1_次数;oc...

hadoop学习笔记

2012-10-23初步接触 1.【hadoop】是一个功能对大量数据进行分布式处理的软件架构,实现了MapReduce编程模型和框架 2.在Mapreduce中一个准备提交执行的应用程序称为作业(job),而从一个作业划分...

hadoop mathout学习笔记

当中会涉及算法和很多陌生知识,抛开能力,我有一个如饥似渴的疯狂的心;勤恳,专心,积极,磊落 官方网站: http://mahout.apache.org/ 学习教程: https://cwiki.apache.org/confluence/di...

没有更多内容

加载失败,请刷新页面

没有更多内容

返回顶部
顶部