文档章节

[喵咪大数据]Presto查询引擎

喵了_个咪
 喵了_个咪
发布于 2018/01/22 11:18
字数 1328
阅读 532
收藏 6

如果大家正在按照笔者的教程尝试使用大数据组件还是之前有使用过相关的组件,大家会发现一个问题HIVE在负责的查询下调用Mapreduce会很慢,在这个场景下就涌现出很多查询引擎来优化,比如大家熟悉的Spark-SQL,Impala,kilin已经今天的主角Presto, Presto以速度和极强的扩展性取得了胜利,不仅能够提高对HIVE数据查询速度还能和异构数据库进行关联查询,比如HIVE和Mysql进行关联查询,那么我们就来迫不及待的揭开Presto的庐山真面目

附上:

喵了个咪的博客:w-blog.cn Presto文档 — Presto 0.100 Documentation

1.安装Presto

ca /app/install
wget https://repo1.maven.org/maven2/com/facebook/presto/presto-server/0.184/presto-server-0.184.tar.gz
tar -zxvf presto-server-0.184.tar.gz
mv presto-server-0.184 /usr/local/presto-0.184

设置环境变量

vim /etc/profile
# presto
export PRESTO=/usr/local/presto-0.184
export PATH=$PRESTO/bin:$PATH
source /etc/profile

配置文件

先进入到presto根目录下 cd /usr/local/presto-0.184

配置节点信息

vim etc/node.properties
node.environment=production
node.id=ffffffff-ffff-ffff-ffff-ffffffffffff
node.data-dir=/usr/local/presto-0.184/data

配置jvm相关参数

vim etc/jvm.config
-server
-Xmx16G
-XX:+UseConcMarkSweepGC
-XX:+ExplicitGCInvokesConcurrent
-XX:+CMSClassUnloadingEnabled                                                                                                     -XX:+AggressiveOpts
-XX:+HeapDumpOnOutOfMemoryError
-XX:OnOutOfMemoryError=kill -9 %p
-XX:ReservedCodeCacheSize=150M

Presto Server 相关的配置,每一个 Presto Server 可以通时作为 coordinator 和 worker 使用。你可以将他们配置在一个极点上,但是,在一个大的集群上建议分开配置以提高性能。

vim etc/config.properties
coordinator=true
node-scheduler.include-coordinator=true
http-server.http.port=8080
discovery-server.enabled=true
discovery.uri=http://hadoop-1:8080

coordinator 的最小配置:

coordinator=true
node-scheduler.include-coordinator=false
http-server.http.port=8080
task.max-memory=1GB
discovery-server.enabled=true
discovery.uri=http://cdh1:8080

worker 的最小配置:

coordinator=false
http-server.http.port=8080
task.max-memory=1GB
discovery.uri=http://cdh1:8080

可选的,作为测试,你可以在一个节点上同时配置两者(我们在单节点上使用先选择这个配置):

coordinator=true
node-scheduler.include-coordinator=true
http-server.http.port=8080
task.max-memory=1GB
discovery-server.enabled=true
discovery.uri=http://cdh1:8080

参数说明:

  • coordinator:Presto 实例是否以 coordinator 对外提供服务
  • node-scheduler.include-coordinator:是否允许在 coordinator 上进行调度任务(单机测试配置为true不然没有节点可以使用)
  • http-server.http.port:HTTP 服务的端口
  • task.max-memory=1GB:每一个任务(对应一个节点上的一个查询计划)所能使用的最大内存
  • discovery-server.enabled:是否使用 Discovery service 发现集群中的每一个节点。
  • discovery.uri:Discovery server 的 url

配置日志等级

vim etc/log.properties
com.facebook.presto=INFO

Catalog配置

如果你想使用 hive 的连接器,则创建 hive.properties:

mkdir etc/catalog
vim etc/catalog/hive.properties
connector.name=hive-hadoop2
hive.metastore.uri=thrift://hadoop-1:9083
hive.config.resources=/usr/local/hadoop-2.7.3/etc/hadoop/core-site.xml,/usr/local/hadoop-2.7.3/etc/hadoop/hdfs-site.xml

关于hive的连接器有以下几种可以更具安装的hive版本信息进行选择

  • hive-cdh5
  • hive-cdh4
  • hive-hadoop1
  • hive-hadoop2

启动HIVE metastore 和 hiveserver2

hive --service metastore
hive --service hiveserver2

启动presto

launcher start  -- 后台运行
launcher run   --日志运行
launcher stop  --停止

2.使用presto-cli查询

cd /usr/local/presto-0.184/bin/
wget https://repo1.maven.org/maven2/com/facebook/presto/presto-cli/0.184/presto-cli-0.184-executable.jar
mv presto-cli-0.184-executable.jar presto-cli
chmod -R 777 presto-cli
presto-cli --server hadoop-1:8080 --catalog hive --schema default

此时就可以正常的执行SQL 了 ,在数据量大的查询情况下速度基本比Hive快了5-6倍

presto:default> show tables;
     Table      
----------------
 employee       
(11 rows)

Query 20170919_031227_00002_mmfcn, FINISHED, 1 node
Splits: 18 total, 18 done (100.00%)
0:00 [11 rows, 327B] [35 rows/s, 1.03KB/s]

关于查询出来的数据常常要导出数据,Presto也提供导出CSV文件的方式

presto-cli --server hadoop-1:8080 --catalog hive --schema default --execute "select msn,count(*) from apilog where apiname = 'Classify.categoryAppList' group by msn;"  --output-format CSV_HEADER > Classify.csv

3. 在线管理工具Airpal

cd /usr/local/
git clone https://github.com/airbnb/airpal.git
cd airpal
# 构建Aripal
./gradlew clean shadowJar -Dairpal.useLocalNode

创建mysql数据库

mysql -u root -p
mysql> CREATE DATABASE airpal;
mysql> USE airpal;
mysql> CREATE USER 'airpal'@'localhost' IDENTIFIED BY 'airpal';
mysql> GRANT ALL ON airpal.* TO 'airpal'@'localhost' IDENTIFIED BY 'airpal';
mysql> GRANT ALL ON airpal.* TO 'airpal'@'%' IDENTIFIED BY 'airpal';
mysql> FLUSH PRIVILEGES;
mysql> quit;

配置文件设置

cp reference.example.yml reference.yml   
vim reference.yml
    # HTTP-specific options.
    # 最好查询设置的端口是否被占用。
    server:
    applicationConnectors:
        - type: http
        port: 8081
        idleTimeout: 10 seconds

    adminConnectors:
        - type: http
        port: 8082

    shiro:
    iniConfigs: ["classpath:shiro_allow_all.ini"]

    dataSourceFactory:
    driverClass: com.mysql.jdbc.Driver
    user: airpal
    password: passwd
    url: jdbc:mysql://localhost:3306/airpal

    flywayFactory:
    locations: ["classpath:db.migration.common", "classpath:db.migration.mysql"]

    # The URL to the Presto coordinator.
    prestoCoordinator: http://prestoCoor:9098

数据库初始化

java -Duser.timezone=UTC -cp build/libs/airpal-*-all.jar com.airbnb.airpal.AirpalApplication db migrate reference.yml

直接启动Airpal:

java -server -Duser.timezone=UTC -cp build/libs/airpal-*-all.jar com.airbnb.airpal.AirpalApplication server reference.yml

通过访问 IP:8081 即可访问进在线查询

4 总结

Presto的强大之处不止于此,这里只是简单演示通过Presto来提高对HIve的查询效率,还有更多的功能需要探索,可以参考官网的文档

注:笔者能力有限有说的不对的地方希望大家能够指出,也希望多多交流!

© 著作权归作者所有

共有 人打赏支持
喵了_个咪
粉丝 327
博文 150
码字总数 199180
作品 4
杨浦
技术主管
私信 提问
二, 跨语言微服务框架 - Istio环境搭建

当我们知道Istio是一个好东西,能够帮助我们快速实现微服务化中的一些关键节点,那么下一步就需要考虑怎么使用Istio了,Istio现在版本是和Kubernetes强关联在一起的,如果大家还不是太了解K...

喵了_个咪
2018/11/12
0
0
开源OLAP引擎测评报告(SparkSql、Presto、Impala、HAWQ、ClickHouse、GreenPlum)

本文为博主公司原创文章,仿冒必究,转载请回复留言** 开源OLAP引擎测评报告(SparkSql、Presto、Impala、HAWQ、ClickHouse、GreenPlum) 易观CTO 郭炜 序 现在大数据组件非常多,众说不一,在...

@dailidong@
今天
0
0
Presto 0.187 发布,Facebook 大数据查询引擎

Presto 0.187 已发布,Presto 是 Facebook 开源的数据查询引擎,可对250PB以上的数据进行快速地交互式分析,查询的速度达到商业数据仓库的级别。据称该引擎的性能是 Hive 的 10 倍以上。 Pr...

王练
2017/10/21
620
0
#数据技术选型#即席查询Shib+Presto,集群任务调度HUE+Oozie

郑昀 创建于2014/10/30 最后更新于2014/10/31 一)选型:Shib+Presto 应用场景:即席查询(Ad-hoc Query) 1.1.即席查询的目标 使用者是产品/运营/销售运营的数据分析师; 要求数据分析师掌握...

旁观者-郑昀
2014/12/22
0
1
Presto 0.180 发布,Facebook 大数据查询引擎

Presto 0.180 已发布,Presto 是 Facebook 开源的数据查询引擎,可对250PB以上的数据进行快速地交互式分析,查询的速度达到商业数据仓库的级别。据称该引擎的性能是 Hive 的 10 倍以上。 Pr...

王练
2017/07/01
623
3

没有更多内容

加载失败,请刷新页面

加载更多

Flink 幕后之内存管理

Flink 幕后之内存管理 引言 目前很多大数据处理框架,例如Hadoop、Spark、Storm、Flink等。它们都基于JVM语言开发(java or scala),运行在JVM上。为了加速合并或者排序(基于磁盘的方式通常...

moyiguke
13分钟前
1
0
风起云涌,看云计算如何赋能媒体行业?

在媒体行业的转型升级中,云计算的出现多维度促进了媒体融合,打破传统媒体行业与新媒体的界限和竞争格局,在媒体素材管理、移动端功能演进的过程中扮演着重要角色,颠覆了传统媒体新闻采编、...

七牛云
16分钟前
0
0
Mybatis开发遇到问题汇总

mybatis 中![CDATA[...]] 在今天使用Mybatis的xml文件中写sql语句时写入了一些特殊字符 如 < > & 等,但解析xml文件的时候会被转义,事实上并不希望它被转义,可以使用<![CDATA[ ]]>. 这是XML...

wangwei2134
24分钟前
0
0
参数验证 @Validated 和 @Valid 的区别

来源:blog.csdn.net/qq_27680317/article/details/79970590 整编:Java技术栈(公众号ID:javastack) Spring Validation验证框架对参数的验证机制提供了@Validated(Spring's JSR-303 规范......

Java技术栈
27分钟前
0
0
JS实现继承的几种方式

前言 JS作为面向对象的弱类型语言,继承也是其非常强大的特性之一。那么如何在JS中实现继承呢?让我们拭目以待。 JS继承的实现方式 既然要实现继承,那么首先我们得有一个父类,代码如下: ...

不负好时光
31分钟前
0
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部