【技术干货】代码示例:使用 Apache Spark 连接 TDengine

原创
2022/05/27 17:30
阅读数 167

小 T 导读想用 Spark 对接 TDengine?保姆级教程来了。


0、前言


TDengine 是由涛思数据开发并开源的一款高性能、分布式、支持 SQL 的时序数据库(Time-Series Database)。


上一篇文章中,我们示范了如何使用 Apache Flink 连接 TDengine,使用 Apache Spark 的小伙伴们已经迫不及待地等待续集了。


相对于 Flink,Spark 对接起来就简单多了。


1、技术实现


Spark 本身封装了 JDBC 的方法,所以我们直接使用 Spark 官网的示例代码就可以完成对接了。


2、示例代码


package com.taosdata.java;                import org.apache.spark.sql.Dataset;import org.apache.spark.sql.Row;import org.apache.spark.sql.SaveMode;import org.apache.spark.sql.SparkSession;import org.apache.spark.sql.jdbc.JdbcDialect;import org.apache.spark.sql.jdbc.JdbcDialects;public class  SparkTest{    public static void main(String[] args) {               // 数据库配置               String url = "jdbc:TAOS://u05:6030/tt?user=root&password=taosdata";               String driver = "com.taosdata.jdbc.TSDBDriver";               String dbtable = "t1";                              SparkSession sparkSession = SparkSession.builder()                               .appName("DataSourceJDBC") // 设置应用名称                               .master("local") // 本地单线程运行                               .getOrCreate();
// 创建DataFrame Dataset<Row> df = sparkSession .read() // 返回一个DataFrameReader,可用于将非流数据作为DataFrame读取 .format("jdbc") // JDBC数据源 .option("url", url) .option("driver", driver) .option("query", "select * from tt.meters limit 100") // 二选一,sql语句或者表 .load();
// 将DataFrame的内容显示 df.show(); df.write() // 返回一个DataFrameWriter,可用于将DataFrame写入外部存储系统 .format("jdbc") // JDBC数据源 .mode(SaveMode.Append) // 如果第一次生成了,后续会追加 .option("url", url) .option("driver", driver) .option("dbtable", "test.meters") // 表名 .save();

sparkSession.stop();
}}


3、简单测试 JNI 读写


1) 环境准备:

    a) Spark 安装&启动:

  • wget  https://www.apache.org/dyn/closer.lua/spark/spark-3.2.1/spark-3.2.1-bin-hadoop3.2.tgz (需复制到浏览器打开)
  • tar zxf spark-3.2.1-bin-hadoop3.2.tgz -C /usr/local


    b) TDengine Database 环境准备:

  • 创建原始数据: 
    • create database tt;
    • create table tt.meters (ts TIMESTAMP,vol INT) ;
    • insert into meters values(now,220);
  • 创建目标数据库表: 
    • create database test;
    • create table test.meters (ts TIMESTAMP,vol INT) ;


2) 打包编译:

源码位置:

https://github.com/liuyq-617/TD-Spark (需复制到浏览器打开)
mvn clean package


3) 程序启动:

spark-submit --master local --name TDenginetest --class com.taosdata.java.SparkTest /testSpark-1.0-SNAPSHOT-dist.jar

  • 读取数据 
    • 读取的数据直接打印在控制台
  • 写入数据 
    • 可以查询到刚插入的数据
      • select * f rom test.meters; 

4、小结

Spark 本身支持 JDBC 的方式来进行读写,我们无需做更多适配,数据接入可以做到无缝衔接。













相关推荐















【技术干货】代码示例:使用 Apache Flink 连接 TDengine


👇 点击阅读原文,了解体验 TDengine!

本文分享自微信公众号 - TDengine(taosdata_news)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

展开阅读全文
加载中
点击引领话题📣 发布并加入讨论🔥
0 评论
0 收藏
0
分享
返回顶部
顶部