文档章节

整合 Tachyon 运行Shark(译)

Ryan-瑞恩
 Ryan-瑞恩
发布于 2015/10/20 11:14
字数 395
阅读 40
收藏 0

整合 Tachyon 运行Shark

前提是已经有 Shark , 我们也假设你已经安装了 Tachyon 和 Hadoop  根据  Local Mode or  Cluster Mode

Shark 0.7 增加了一个新的存储格式支持从 Tachyon 高效率读取数据,这使得在 Shark 实例间数据共享和隔离。我们的聚会幻灯片(slide)给出了使用Tachyon 缓存 Shark's 表的好处一个很好的概述。总之,以下四个是主要的:

  • 内存中的数据共享多个 Shark 实例 (即:加强隔离)

  • 即时恢复内存中的表

  • 减少 Shark 的堆大小导致的频繁GC 问题

  • 如果表的大小超出了可用内存总数,只有常用列会被缓存在内存中(译者注:根据使用频率缓存)

Shark 兼容性

Tachyon 版本 Shark 版本
0.2.1 0.7.x
0.3.0 0.8.1
0.4.0 0.9.0
0.4.1 0.9.1 +
0.5.0 0.9.1 +

配置

为了基于Tachyon运行 Shark,首先需要配置Tachyon,在 Local Mode or in Cluster Mode, 及 HDFS 。

然后添加以下行内容在 shark-env.sh:

export TACHYON_MASTER="tachyon://TachyonMasterHost:TachyonMasterPort" export TACHYON_WAREHOUSE_PATH=/sharktables

缓存 Shark tables 到 Tachyon

组合方式在Tachyon 上创建缓存表,运行这些查询需要一些数据已经在 文件系统 或加载到 Shark。

指定 TBLPROPERTIES(“shark.cache” = “tachyon”), 示例:
CREATE TABLE data TBLPROPERTIES(“shark.cache” = “tachyon”) AS SELECT a, b, c from data_on_disk WHERE month=“May”;
指定表名字必须以 _tachyon 结尾,示例:

CREATE TABLE orders_tachyon AS SELECT * FROM orders;

之后再Tachyon中创建这个表,你可以像其他表那样查询它。

© 著作权归作者所有

共有 人打赏支持
Ryan-瑞恩

Ryan-瑞恩

粉丝 152
博文 238
码字总数 184810
作品 0
西安
后端工程师
私信 提问
Tachyon 概述(译)

Tachyon 概述 Tachyon是一个以内存为中心的分布式存储系统,能够可靠的在跨集群框架之间以内存速度进行共享,比如 Spark 和 MapReduce。它通过利用 lineage 信息和使用内存实现了高性能,Tac...

Ryan-瑞恩
2015/10/15
82
0
Spark生态圈的分布式文件系统-Tachyon

Tachyon 是一个高容错的分布式文件系统,允许文件以内存的速度在集群框架中进行可靠的共享,类似Spark和MapReduce。通过利用lineage信息,积极地使用内存,Tachyon的吞吐量要比HDFS高300多倍...

openthings
2016/03/09
270
0
整合 Tachyon 运行 Spark(译)

整合 Tachyon 运行 Spark 兼容性 如果你计划运行Spark 结合使用 Tachyon,以下版本的搭配将共同开箱即用。如果你计划使用不同版本而不是默认支持版本。请重新编译Spark 的正确版本,通过在 ...

Ryan-瑞恩
2015/10/19
595
0
整合 Tachyon 运行 Hadoop MapReduce(译)

整合 Tachyon 运行 Hadoop MapReduce 本指南描述如何使Tachyon 与 Hadoop MapReduce 结合运行,这样你可以很容易运行 hadoop MapReduce 程序文件存储在 Tachyon上。 前提 这部分额外的首要条...

Ryan-瑞恩
2015/10/20
284
0
整合 Tachyon 运行 Apache Flink(译)

整合 Tachyon 运行 Apache Flink 本人详述了如何基于Tachyon 运行 Apache Flink, 这样在 Tachyon 中可以很便捷的处理文件存储。 前提 首先,得存在 Java 环境。 我们也假设你已经根据 Local ...

Ryan-瑞恩
2015/10/20
132
0

没有更多内容

加载失败,请刷新页面

加载更多

Scala实战:迁移文件

Scala作为script使用也是非常的方便。 原文地址:https://www.yangbajing.me/2019/03/22/scala实战:迁移文件/ 前因 最近因为线上文件越来越多,导致磁盘不够用。需要将磁盘上数据迁移到一块...

羊八井
43分钟前
2
0
vagrant

安装virtualbox、vagrant,重启电脑 创建目录vagrant_ubuntu1804,进入目录后 vagrant box add http://mirrors.ustc.edu.cn/ubuntu-cloud-images/bionic/20190312.1/bionic-server-cloudimg-......

chuqq
54分钟前
2
0
Java 多线程测试 笔记(一)

测试 没有Synchronized的并发 结果 用比较实际的方式测试,比如说卖东西,赚钱 public class Sell implements Runnable { static Sell sell = new Sell(); //商品总数 sta...

_大侠__
54分钟前
2
0
《大话数据结构》读后总结(四)

一、算法 1、算法效率的度量方法 1.1 事后统计方法 通过设计好的测试程序和数据,利用计算机计时器对不同算法编制的程序的运行时间进行比较,从而确定算法效率的高低。该方法具有很大缺陷,不...

徐曙辉
今天
3
0
Android 整体设计及背后意义

阿里妹导读:现实工作中经常可以听到这样的说法:框架的升级带来协议性能的提升、编程模式的变革带来业务的飞跃...... 姑且不论这些表述是否有问题,实际上如果系统地看待事物整体,可能会有...

阿里云云栖社区
今天
3
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部