AI 时代数据存储管理新挑战分论坛圆满举办

原创
2023/12/22 10:52
阅读数 11

12 月 16 日,AI 时代数据存储管理新挑战分论坛在无锡成功召开,会上来自蚂蚁集团、SphereEx、平凯星辰、九章云极 DataCanvas、StreamNative、腾讯云和华为的技术专家,共同分享了 AI 时代下数据库技术最新发展与实践。

蚂蚁集团开发工程师、HoraeDB 核心开发者 曹瑞秋

曹瑞秋在《时序数据库 HoraeDB 技术揭秘》的主题分享中表示,近期已将 CeresDB 内核捐献到 Apache 基金会,捐献的内核即为 HoraeDB(CeresDB 现已更名为 HoraeDB)。目前主流的 InfluxDB、Prometheus、VictoriaMetrics 等时序数据库仍存在时间线高基数问题和社区分布式方案不够完备等问题。而 HoraeDB 采用倒排索引支持多维查询,时间线少,适配度高的场景,倒排索引能直接全量存放在内存中。HoraeDB 的高基数解决方案的核心是摒弃时间线概念,去除对倒排索引的强依赖,针对不同 tag 灵活选择索引。此外,曹瑞秋还详细介绍了 HoraeDB 分布式查询优化、Memtable/SST read 等优化设计思路。

SphereEx 创始人 张亮

张亮发表了《数据库增强计算引擎:数据库架构革新新思路》主题演讲。他认为在海量数据急速扩张,OLTP、OLAP、HTAP 等多种数据应用场景,数据库技术栈碎片化等情势下,数据系统应对上应用层零入侵,数据库本身工具化,因此中间加速引擎则具有创新性、可插拔、平台化。SphereEx 公司是由 Apache 顶级开源项目 ShardingSphere 核心团队创立,致力于为企业提供面向新一代数据架构的数据库增强引擎(DBPlusEngine),提供企业级、云原生的轻量级分布式数据库解决方案、数据安全合规及信创平滑替换产品和服务,解决了企业海量数据的存储与计算、数据安全合规等问题,帮助企业实现数据架构的转型升级。

平凯星辰 TiDB Serverless 生态负责人 张翔

张翔发表了《TiDB Serverless:构建一个云原生的 Serverless 数据库》主题演讲。他首先介绍了 TiDB 是开源、兼容 MySQL、具有分布式,可保障业务连续性的真正的内核级 HTAP 分布式混合负载数据处理平台,在此之后的 TiDB Serverless 是在去年由 PingCAP 推出的一款云原生的 Serverless 数据服务演进而来,已经由经典分布式 HTAP 改造为下一代 Cloud Native 架构。因此可以实现如支持多租户的统一接入网关、TiFlash 计算存储分离、计算资源池化、TiKV Keyspace,以及 Scale to Zero、实时唤醒、自动扩缩容等按需分配,可以利用云上的海量资源、高达 11 个 9 的持久性、微服务化,更高效地使用云上资源,降低爆炸半径等真正的原生性能,以此实现全量数据的弹性,以及简单易用,降低 AI 时代的数据成本。

九章云极 DataCanvas 资深架构师 孟圣智

孟圣智发表了《DingoDB:融合 SQL 与向量,构建功能完整的 RAG 数据库底座》主题演讲,他表示 AI 时代数据需要从更多存储变为更易检索,九章云极 DataCanvas 作为 AI 基础软件供应商,自主研发的 DingoDB 多模向量数据库,实现结构化与非结构化的联合存储、分析和查询。DingoDB 既是关系数据库,支持 SQL、支持事务,符合用户使用关系型数据库的习惯。同时,DingoDB 也是向量数据库,支持 Python 和 Java SDK,可以像使用大多数纯向量数据库一样,无缝对接 LLM App,可以实现企业知识库、大模型记忆体、实时决策指标计算能力、非结构化数据的检索、Vector Ocean 数据支撑平台、结构化与非结构化的融合分析等多种知识检索应用场景。

StreamNative 联合创始人、Apache Pulsar PMC Member 翟佳

翟佳发表了《云原生批流融合数据平台助力 AI/LLM 的实时数据处理》主题演讲,他表示 Pulsar 从捐赠给 Apache 软件基金会后的几年里一直在高速增长。Pulsar 采用存算分离云原生架构、支持多种语言,批和流统一视图,可以与 Flink、Spark 等批流一体计算引擎有效地结合,方便管理实时和历史数据,确保数据新鲜度,将批流一体的数据与向量数据库结合,确保大模型的数据显现度和准确性,以提高模型准确性,降低模型幻觉。

腾讯开源专家 耿航

耿航发表了《腾讯云 TDSQL 平滑去 O 的机遇挑战与开源实践》主题演讲,他表示核心数据库平滑替换,需要从内核、性能、使用习惯三个层面全面兼容,并且是一个完整的系统工程。腾讯云分布式数据库 TDSQL PG 开源社区版 OpenTenBase 是完整去 O 和兼容 O 的数据库内核,以内核兼容为基础,打造从驱动、工具、内核三个层面的甲骨文兼容能力,填补基于 Postgres 的开源分布式 HTAP 系统的空白。OpenTenBase 已吸引超过 10 个国家和地区的开发者关注,希望通过腾讯及上下游伙伴的技术投入,打造立足中国,面向全球的开放数字基础设施数据底座。

华为 openGauss 内核技术专家 胡正超

胡正超发表了《openGauss 内核架构双引擎,驱动大规模数据处理》主题演讲,并分享了 openGauss 5.1 版本持续在高性能、高可用、高安全、高智能内核上增强能力,同时在 DataPod 和 DataKit 持续创新,目标是实现更高效的大规模数据处理,更丰富的场景支持,更便捷的使用体验。其中 DataPod 在 5.1 版本实现了一些新功能,提升了系统的易用性、可用性和性能。DataKit 为 openGauss 的数据全生命周期生产力工具,当前持续在平台架构和功能插件上构建新功能,如增加告警中心、数据迁移、开发、运维等插件。

近几年数据库百花齐放,快速发展。生成式 AI 爆发之后,AI 大模型加速普及应用,模型训练推理的准确性,对系统数据与信息的存储、检索、计算提出了新挑战。从本次分论坛嘉宾分享的干货内容,我们可以看到,针对 AI 的数据系统可能正在走向殊途同归的技术路径,那就是分布式原生、实时、向量化(时序也可看作一种向量),另外存算分离、并行架构,以满足 AI 对数据的性能、成本等要求。

展开阅读全文
加载中
点击引领话题📣 发布并加入讨论🔥
打赏
0 评论
0 收藏
0
分享
返回顶部
顶部