Apache Linkis和Apache SeaTunnel的集成参考

2023/04/27 14:59
阅读数 354

随着 WeDatasphere 的蓬勃发展,越来越多的企业开始将 Apache Linkis 作为核心数据处理和计算平台。Linkis 为企业提供了统一的数据处理环境,大大提高了 数据处理效率。
目前市面上优秀的相关产品也越来越多的能够与 Linkis 进行集成,本文将为大家带来 Apache Linkis和 Apache SeaTunnel 的集成参考; 于 SeaTunnel 部分版本依赖 Spark 或 Flink 环境(2.2及后续版本已经摆脱依赖),使用 Linkis-SeaTunnel 引擎前,强烈建议本地跑通 SeaTunnel 环境。

下载地址 https://dlcdn.apache.org/incubator/seatunnel/2.1.2/apache-seatunnel-incubating-2.1.2-bin.tar.gz

1.2 引擎环境验证

以执行 Spark 任务为例

cd $SEATUNNEL_HOME./bin/start-seatunnel-spark.sh --master local[4] --deploy-mode client --config ./config/spark.batch.conf.template

输出结果如下:

2. 引擎插件部署

2.1 引擎插件准备(二选一)非默认引擎

方式一:直接下载引擎插件包:Linkis 引擎插件下载

方式二:单独编译引擎插件(需要有 maven 环境)

# 编译cd ${linkis_code_dir}/linkis-engineconn-plugins/seatunnel/mvn clean install# 编译出来的引擎插件包,位于如下目录中${linkis_code_dir}/linkis-engineconn-plugins/seatunnel/target/out/

EngineConnPlugin 引擎插件安装 https://linkis.apache.org/zh-CN/docs/latest/deployment/install-engineconn/

2.2 引擎插件的上传和加载

将 2.1 中的引擎包上传到服务器的引擎目录下

${LINKIS_HOME}/lib/linkis-engineplugins

上传后目录结构如下所示

linkis-engineconn-plugins/├── seatunnel│   ├── dist│   │   └── 2.1.2│   │       ├── conf│   │       └── lib│   └── plugin│       └── 2.1.2


2.3 引擎刷新

2.3.1 重启刷新

通过重启 linkis-cg-linkismanager 服务刷新引擎

cd ${LINKIS_HOME}/sbinsh linkis-daemon.sh restart cg-linkismanager

2.3.2 检查引擎是否刷新成功
可以查看数据库中的 linkis_engine_conn_plugin_bml_resources 这张表的last_update_time 是否为触发刷新的时间。
#登录到 `linkis` 的数据库 select * from linkis_cg_engine_conn_plugin_bml_resources;

3. 引擎的使用

3.1 通过 Linkis-cli 提交任务


sh ./bin/linkis-cli --mode once -code 'test'  -engineType seatunnel-2.1.2 -codeType sspark  -labelMap userCreator=hadoop-seatunnel -labelMap engineConnMode=once -jobContentMap code='env {   spark.app.name = "SeaTunnel"   spark.executor.instances = 2   spark.executor.cores = 1   spark.executor.memory = "1g"   }   source {      Fake {       result_table_name = "my_dataset"     }   }   transform {}   sink {Console {}}' -jobContentMap master=local[4] -jobContentMap deploy-mode=client -sourceMap jobName=OnceJobTest  -submitUser hadoop -proxyUser hadoop
3.2 通过 OnceEngineConn 提交任务
OnceEngineConn 通过 LinkisManagerClient 调用 LinkisManager 的 createEngineConn 接口,并将代码发送到创建的 Seatunnel 引擎,然后 Seatunnel 引擎开始执行。Client 的使用也非常简单,首先创建一个新的 maven 项目,或者在项目中引入以下依赖项。
<dependency>    <groupId>org.apache.linkis</groupId>    <artifactId>linkis-computation-client</artifactId>    <version>${linkis.version}</version></dependency>
示例代码
package org.apache.linkis.computation.client;import org.apache.linkis.common.conf.Configuration;import org.apache.linkis.computation.client.once.simple.SubmittableSimpleOnceJob;import org.apache.linkis.computation.client.utils.LabelKeyUtils;public class SeatunnelOnceJobTest {    public static void main(String[] args) {        LinkisJobClient.config().setDefaultServerUrl("http://ip:9001");        String code =                "\n"                        + "env {\n"                        + "  spark.app.name = \"SeaTunnel\"\n"                        + "  spark.executor.instances = 2\n"                        + "  spark.executor.cores = 1\n"                        + "  spark.executor.memory = \"1g\"\n"                        + "}\n"                        + "\n"                        + "source {\n"                        + "  Fake {\n"                        + "    result_table_name = \"my_dataset\"\n"                        + "  }\n"                        + "\n"                        + "}\n"                        + "\n"                        + "transform {\n"                        + "}\n"                        + "\n"                        + "sink {\n"                        + "  Console {}\n"                        + "}";        SubmittableSimpleOnceJob onceJob =                LinkisJobClient.once()                        .simple()                        .builder()                        .setCreateService("seatunnel-Test")                        .setMaxSubmitTime(300000)                        .addLabel(LabelKeyUtils.ENGINE_TYPE_LABEL_KEY(), "seatunnel-2.1.2")                        .addLabel(LabelKeyUtils.USER_CREATOR_LABEL_KEY(), "hadoop-seatunnel")                        .addLabel(LabelKeyUtils.ENGINE_CONN_MODE_LABEL_KEY(), "once")                        .addStartupParam(Configuration.IS_TEST_MODE().key(), true)                        .addExecuteUser("hadoop")                        .addJobContent("runType", "sspark")                        .addJobContent("code", code)                        .addJobContent("master", "local[4]")                        .addJobContent("deploy-mode", "client")                        .addSource("jobName", "OnceJobTest")                        .build();        onceJob.submit();        System.out.println(onceJob.getId());        onceJob.waitForCompleted();        System.out.println(onceJob.getStatus());        LinkisJobMetrics jobMetrics = onceJob.getJobMetrics();        System.out.println(jobMetrics.getMetrics());    }}

4. 引擎配置说明

4.1 默认配置说明

4.2 配置修改

如果默认参数不满足时,有如下几种方式可以进行一些基础参数配置。

4.2.1 客户端配置参数

sh ./bin/linkis-cli --mode once -code 'test'  \-engineType seatunnel-2.1.2 -codeType sspark  \-labelMap userCreator=hadoop-seatunnel -labelMap engineConnMode=once \-jobContentMap code='env {   spark.app.name = "SeaTunnel"   spark.executor.instances = 2   spark.executor.cores = 1   spark.executor.memory = "1g"   }   source {      Fake {       result_table_name = "my_dataset"     }   }   transform {}   sink {Console {}}' -jobContentMap master=local[4] \   -jobContentMap deploy-mode=client \   -sourceMap jobName=OnceJobTest  \   -runtimeMap wds.linkis.engine.seatunnel.plugin.home=/opt/linkis/seatunnel \   -submitUser hadoop -proxyUser hadoop

4.2.2 任务接口配置

交任务接口,通过参数 params.configuration.runtime 进行配置。
http 请求参数示例 {    "executionContent": {"code": 'env {    spark.app.name = "SeaTunnel"    spark.executor.instances = 2    spark.executor.cores = 1    spark.executor.memory = "1g"    }    source {         Fake {            result_table_name = "my_dataset"        }    }    transform {}    sink {Console {}}',     "runType":  "sql"},    "params": {        "variable": {},        "configuration": {                "runtime": {                    "wds.linkis.engine.seatunnel.plugin.home":"/opt/linkis/seatunnel"                    }                }        },    "labels": {        "engineType": "seatunnel-2.1.2",        "userCreator": "hadoop-IDE"    }}

通过以上的详细步骤和代码示例,可以实现了 Apache Linkis 与 SeaTunnel 的集成。需要注意的是,本文提供的集成方案仅作为参考,可能需要根据自己的实际环境进行适当调整,希望本文能为实际工作带来帮助,祝您在大数据领域取得更多的成功


— END —
WeDataSphere一站式开源 大数据平台的建设与应用实践
WeDataSphere 入门指南(含沙箱使用介绍)
保姆级教程:如何成为Apache Linkis文档贡献者
WDS优秀案例征集!让您的案例扩散和帮助更多人!

更多社区活动等待你的参与!

WeDatasphere 简称“WDS” 一站式开源大数据平台套件,含 9 个开源组件,其中 Linkis 已捐献给Apache软件基金会并成为顶级项目。截止今年初,WDS 开源社区群用户总数超 7千人,沙箱试用企业超 2,600 家,投入生产企业超百家,服务用户超 5 千人,涉及金融、电信、制造和互联网等各个行业,如招联金融、中国平安、荣耀、三六零、天翼云、理想汽车、蔚来汽车、T3 出行、海康威视、BOSS 直聘、中体彩科技等大数据团队成员均在社区持续活跃并参与贡献,欢迎加小助手( ID:WeDatasphere)与各行业大数据同行交流。

仓库:github.com/WeBankFinTech/WeDataSphere

点击“阅读原文”进入Apache linkis官网

本文分享自微信公众号 - WeDataSphere(gh_273e85fce73b)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

展开阅读全文
加载中
点击引领话题📣 发布并加入讨论🔥
0 评论
0 收藏
0
分享
返回顶部
顶部