加载中
hadoop2.7环境的编译安装

海外找回来的的资料,珍惜吧!BD TMD的搜不到,搜到的很多细节漏掉了,总是出错,而且版本很旧,都是1.X的。这里介绍的是目前最新的Hadoop版本2.7.1,但因为还在开发中,应该还不是很稳定,需...

Hadoop安装与配置

本Hadoop安装教程为简略版本,包含伪分布式和集群的配置,只列出命令与配置,不作详细说明,方便有基础的读者。完整版请浏览Hadoop安装配置教程_伪分布式,以及Hadoop集群安装配置教程。 本教...

Spark的源码编译

Spark是一个快速发展的用于大量数据处理的分布式系统,这里介绍其源码编译方法。英文好的直接看Spark的版本下载和源码编译方法的官方地址:http://spark.apache.org/downloads.html,最新的信...

2015/12/17 10:08
139
Spark源码编译和问题的解决

对源码进行编译虽然有点自虐,但可以帮助自己更好地了解其中的细节,为以后的深入和解决配置问题打下基础,否则遇到问题可能会束手无策。这里介绍Spark的编译过程[来自于:http://www.iteb...

2015/12/17 09:06
549
十八款Hadoop工具帮你驯服大数据

由于大数据相关的研究快速发展,有的工具或消失,有的会增强,而新的也会很快出现。这里列出了一些Hadoop相关的工具,仅供参考。

2016/01/05 12:11
323
CG_Hadoop:基于MapReduce的计算几何

摘要:Hadoop使用了MapReduce编程范式,目前已经被公认为是分布 式环境中分析大数据的标准框架。然而,它并不能很好的应用于大规模的计算几何处理。本文介绍的CG_Hadoop是一套可伸缩的和高效...

Hadoop 2.7.1的源码编译

Compile Hadoop from Source Compile Hadoop 2.x help you fix error Unable to load native-hadoop library Install Requirements Java Oracle: otherwise, while maven build you may be o...

Spark生态圈的分布式文件系统-Tachyon

Tachyon 是一个高容错的分布式文件系统,允许文件以内存的速度在集群框架中进行可靠的共享,类似Spark和 MapReduce。通过利用lineage信息,积极地使用内存,Tachyon的吞吐量要比HDFS高300多倍...

SpatialHadoop:有效的分析你的空间数据

SpatialHadoop是一个开源的MapReduce扩展,专门用于在ApacheHadoop集群上处理空间数据。SpatialHadoop内置了空间高级语言,空间数据类型、空间索引和高效的空间操作。这里介绍其配置方法。...

R语言与Hadoop和Hbase的联合使用

HBase和rhbase的安装与使用,包括:环境准备及HBase安装,rhbase安装,rhbase程序用例。

SpatialHadoop实例:面向空间数据的高效MapReduce框架

作者:Ahmed Eldawy;Mohamed F.Mokbel 摘要:本文实例介绍了SpatialHadoop平台,它是第一 个基于成熟MapReduce对空间数据具有原生支持的框架。SpatialHadoop是对Hadoop的做了一个全面的扩展...

开源大数据处理工具汇总(上)

开源大数据处理工具汇总(上),一共81个。

Spark快速入门

什么是Spark Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架。最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一。 与Hadoop和Storm...

2016/03/12 10:17
207
AirFlow-Install

AirFlow-Installation https://airflow.incubator.apache.org/installation.html Getting Airflow The easiest way to install the latest stable version of Airflow is with pip: pip inst...

Spark的Python编程-初步入门

Spark提供了Python脚本编程接口,这里简单介绍其使用。

2016/03/02 07:53
496
Spark for Spatial,相关资源

时空大数据分析正越来越热门,而R之类的分析工具只能制作简单的地图。把GIS纳入大数据技术体系,并且将GIS的算法、模型、可视化等能力与Hadoop/Spark等大规模分布式计算体系结合起来,将是未...

Spark的python编程-初步理解

spark应用程序结构 Spark应用程序可分两部分:driver部分和executor部分初始化SparkContext和主体程序。 A:driver部分 driver部分主要是对SparkContext进行配置、初始化以及关闭。初始化Spa...

2016/03/03 09:09
1K
Spark 1.2 发布,开源集群计算系统

Spark 1.2 发布,此版本包括 172 位贡献者和超过 1000 个 commits。 此版本包括 Spark 核心操作和性能改进; 添加新的网络传输子系统,进行了较大的改进; Spark SQL 引入了一个外部数据源的...

2015/01/20 20:43
42
DARPA出手, Python有望成为大数据分析语言

当前, 在大数据领域, Java成为了当仁不让的必修语言。原因就是大数据平台必备的Hadoop分布式管理平台需要使用Java,但是这种局面有可能被DARPA改变。 IT经理网在“大数据成为美国军队的’新...

python实现OSM文件转为JSON格式

OSM是OpenStreetMap的开源数据格式,采用xml存储。这里将其转为json后可以加载到Spark/Hadoop等系统中进一步处理,也可以直接转入GIS软件中使用。 提取OpenStreetMap的osm文件(xml格式),转为...

没有更多内容

加载失败,请刷新页面

返回顶部
顶部