Apache SeaTunnel 2.3.7发布:全新支持大型语言模型数据转换

原创
09/02 17:16
阅读数 79

file

我们欣喜地宣布,Apache SeaTunnel 2.3.7 版本现已正式发布!作为一个广受欢迎的下一代开源数据集成工具,Apache SeaTunnel 一直致力于为用户提供更加灵活、高效的数据同步和集成能力。此次版本更新不仅引入了如 LLM(大型语言模型)数据转换支持、增强的 SQL 支持和新连接器支持等多个新特性,还对现有功能进行了优化和改进,并修复了多个发现的问题。本文将详细介绍 Apache SeaTunnel 2.3.7 版本中的关键更新内容,并邀请更多的开发者和用户参与到我们的开源社区中来。

新增功能亮点

  1. LLM 数据转换支持:2.3.7 新版本中增加了对 LLM(大语言模型)数据转换的支持。这一特性将显著提升 Apache SeaTunnel 在处理复杂文本数据和自然语言处理任务中的应用能力,为前沿数据处理领域的用户提供了更大的便利。 值得一提的是,我们在 2.3.6 版本添加了向量类型支持向量数据库写入,可加速人工智能应用程序的开发,并简化由 AI 驱动的应用程序工作负载的运作,已成为大模型时代的得力助手。为更好地支持 AI 开发,Apache SeaTunnel 2.3.6 版本添加了对向量数据库 Milvus的支持。这是 Apache SeaTunnel 支持的首个向量数据库,后续将扩展对其他向量数据库的支持,具体可参考《2.3.6版本发布!Apache SeaTunnel Zeta引擎迎来新架构!》。

  2. 增强的 SQL 支持:此次版本为 SQL 增加了 CAST TO BYTES 功能,使数据类型转换更加灵活,用户在处理不同数据格式时,将拥有更多的选择,提升了数据处理的灵活性和可操作性。

  3. 阿里云 SLS 连接器支持: 此次更新新增了阿里云 SLS(阿里云日志服务)连接器。通过此功能,用户可以将数据直接导入到阿里云日志服务中,利用其强大的日志管理和分析能力。这一特性特别适用于需要实时日志监控和分析的用户场景。

  4. ActiveMQ Sink 连接器支持:支持 ActiveMQ 作为 Sink,进一步扩展了 SeaTunnel 的消息队列集成能力。ActiveMQ 是一个高性能的消息代理系统,此次新增的支持使得 Apache SeaTunnel 用户能够更方便地与 ActiveMQ 进行数据交换,尤其适合于数据流处理和实时数据分析的场景。

改进和优化

在功能优化方面,Apache SeaTunnel 2.3.7 同样带来了诸多改进,旨在提升系统的性能和稳定性。

  • Flink API 方法命名优化:改进了 Flink API 的方法命名规范,使得代码更加易读、易理解。这项优化不仅提升了开发体验,也减少了开发人员在使用 Flink 时可能遇到的困惑。

  • 增强的 API 合法性检查:新版增加了对 API 输入参数的合法性检查,确保了用户输入的配置和参数符合预期要求。这一改进减少了因配置错误导致的运行时异常,提升了系统的整体稳定性。

  • 多表 Sink 配置优化:对于需要处理多表输出的场景,2.3.7 进一步优化了 Sink 选项配置,使得用户在配置多表输出时更加便捷和高效。

  • OceanBase 支持优化:修复了 OceanBase 相关的兼容性问题,提升了 Apache SeaTunnel 在处理 OceanBase 数据库时的性能和稳定性。

关键问题修复

本次版本更新修复了多个关键问题,显著提升了系统的稳定性和用户体验。

  • MySQL-CDC 连接器修复:修复了在特定情况下,MySQL-CDC 连接器无法正常同步数据的问题。这个修复确保了使用 MySQL 数据源的用户能够更加可靠地进行数据同步操作。

  • Doris 连接器修复:解决了 Doris 连接器的一些关键性问题,增强了 Apache SeaTunnel 与 Doris 数据库的兼容性和性能,为使用 Doris 作为数据存储的用户提供了更好的支持。

  • Zeta 引擎任务停止问题修复:此次更新解决了 Zeta 引擎在某些情况下无法正常停止任务的 bug。这一改进防止了资源泄漏问题的发生,提高了系统的整体稳定性。

文档和社区贡献

我们深知,优秀的文档是用户成功使用 Apache SeaTunnel 的关键。在 2.3.7 版本中,我们对多个模块的文档进行了更新和修正,确保用户能够获得最准确和易懂的使用指南。

  • 文档更新和修正:此次版本更新对多个文档进行了修正,特别是 Oracle-CDC 等模块的使用文档。我们不仅修复了之前版本中存在的错误描述,还增加了更多的使用案例和操作指南,帮助用户更好地理解和使用 SeaTunnel。

  • 感谢社区贡献者:此次版本更新离不开社区的支持和贡献。我们特别感谢所有为 SeaTunnel 2.3.7 版本提交代码、报告问题和提出建议的贡献者。正是因为你们的无私奉献,Apache SeaTunnel 才能不断进步和成长。

本次具体更新如下:

新功能

Transforms-V2

  • [Feature] 拆分变换并将 JAR 移动到 connectors 目录 (#7218)
  • [Feature][LLM] 添加 LLM 变换 (#7303)
  • [Feature][SQL] 支持 SQL 的 cast to bytes 函数 (#7284)

Connector-V2

  • [Feature][Aliyun SLS] 添加阿里云 SLS 连接器 (#3733) (#7348)
  • [Feature][Activemq] 添加 ActiveMQ 连接器 (#7251)

功能改进

Core

  • [Improve][Flink] 优化方法名称 (#7372)
  • [Improve][API] 在发送到下游之前检查 catalog 表字段名的合法性 (#7358)
  • [Improve][Flink] 重构 Flink 代理源/汇 (#7355)
  • [Improve][API] 确保 TablePath 中的表名不为 null (#7252)
  • [Improve][Core] 基于插件名称改进查找策略 (#7278)

Connector-V2

  • [Improve][multi-table] 增加多表汇的选项检查 (#7360)
  • [Improve][Console] 更新 ConsoleSinkFactory.java (#7350)
  • [Improve][Jdbc] 自动创建表时跳过所有索引以提高写入性能 (#7288)
  • [Improve][Doris] 改进 Doris 错误信息 (#7343)
  • [Improve][Jdbc] 删除 JdbcDialect 中的 MysqlType 引用 (#7333)
  • [Improve][Jdbc] 创建表时合并用户配置的主键 (#7313)
  • [Improve][Jdbc] 优化检查数据库和表是否存在的方式 (#7261)

Transforms-V2

  • [Improve][DynamicCompile] 改进 DynamicCompile 变换 (#7319)
  • [Improve][SQL] 从输出字段中移除转义标识符 (#7297)
  • [Improve][DynamicCompile] 改进 DynamicCompile 变换 (#7264)

E2E

  • [Improve][Improve] 启用 Spark/Flink 的 fakesource E2E 测试 (#7325)
  • [Improve][Improve] 启用 JdbcPostgresIdentifierIT (#7326)
  • [Improve][Improve] 支持 Windows 上的 Paimon E2E 测试 (#7329)

Bug 修复

Connector-V2

  • [Hotfix][MySQL-CDC] 修复 MySQL binlog 读取时的 ArrayIndexOutOfBoundsException 异常 (#7381)
  • [Fix][Doris] 修复 Doris 主键顺序与字段顺序不一致的问题 (#7377)
  • [Bugfix][Doris] 修复 JSON 序列化时,空值导致的数据错误问题 (#7379)
  • [Hotfix][Jdbc] 修复 JDBC 编译错误 (#7359)
  • [Fix][OceanBase] 移除 OceanBase catalog 对 MySQL 驱动的依赖 (#7311)
  • [Fix][Tdengine] 修复连接 Taos 读取数据时的 SQL 异常和 ConcurrentModifyException 异常 (#6088)
  • [Hotfix][Kafka] 修复 Kafka 消费者日志的下次启动偏移量问题 (#7312)
  • [Fix][Doris] 修复 CDC 场景下删除数据的异常问题 (#7315)
  • [Hotfix][Hbase] 修复和优化 HBase 源问题 (#7148)
  • [Fix][Iceberg] 修复无法为标识符 'Iceberg' 创建源的问题 (#7182) (#7279)

Zeta(ST-Engine)

  • [Fix][Zeta] 修复由于锁定指标失败导致任务无法结束的问题 (#7357)
  • [Hotfix][Zeta] 修复系统繁忙时任务无法停止的问题 (#7292)
  • [Hotfix][Zeta] 修复系统繁忙时任务无法停止的问题 (#7280)

E2E

  • [Fix][Http] 修复 HTTP E2E 测试用例 (#7356)

文档

  • [Docs] 在 setup.md 中更改弃用的连接器名称 (#7366)
  • [Docs] 修复 SFTP 汇文档中的用户名参数错误 (#7334)
  • [Docs] 修复选择 OSS 作为检查点时的配置问题 (#7332)
  • [Docs] 修复 sidebars 中缺失的 sink-options-placeholders.md (#7310)
  • [Docs] 更新 Oracle-CDC.md (#7285)
  • [Docs] 修复混合集群部署文档显示错误 (#7306)
  • [Docs] 将事件监听器文档翻译成中文 (#7274)

其他

  • 更新 org.apache.activemq:activemq-client (#7323)
  • [Improve] 移除未使用的代码 (#7324)
  • [Improve] 更新快照版本至 2.3.7 (#7305)

贡献者名单

特别感谢 wuchunfu 的主持发版工作,感谢下列社区成员对本次发版工作的贡献:

Carl-Zhou-CN Hisoka-X Jarvis OswinWu TyrantLucifer XenosK alextinng asapekia chaos-cn corgy-w dailai dependabot[bot] gdliu3 hailin0 hawk9821 jackyyyyyssss liugddx luzongzhu q3356564 virvle whhe wuchunfu xxsc0529 zhangshenghang

总结

Apache SeaTunnel 2.3.7 的发布,是我们持续提升产品性能和用户体验的重要一步。通过新增功能、优化现有功能以及修复已知问题,我们希望为用户提供更好的数据集成和处理体验。同时,我们也期待有更多的用户和开发者加入到 SeaTunnel 社区中来,共同推动这个开源项目的发展。

欢迎下载 SeaTunnel 2.3.7 版本,体验最新功能和改进。如果您在使用过程中有任何问题或建议,欢迎随时与我们联系。让我们一起,共同构建一个更加开放、强大、灵活的数据集成工具!

  • 如何参与贡献:您可以通过提交代码、报告问题、撰写文档等多种方式参与到 SeaTunnel 的开源社区中来。我们的 GitHub 页面上有详细的贡献指南,帮助您快速入门。

  • 加入我们的讨论:我们非常重视社区的声音,并鼓励大家在 GitHub Issue 页面、邮件列表和其他讨论渠道中分享您的想法和建议。您的每一个建议,都是我们改进和提升 Apache SeaTunnel 的宝贵财富。

本文由 白鲸开源科技 提供发布支持!

展开阅读全文
加载中
点击引领话题📣 发布并加入讨论🔥
0 评论
0 收藏
0
分享
返回顶部
顶部