ByConity 是字节跳动基于 ClickHouse 发展出的存算分离的云原生数仓引擎,2023 年 1 月正式发布开源 Beta 版本,今年 7 月,ByConity 正式发布 1.0 版本。
开源一周年之际,ByConity 已经获得了 2100 + 的 Star 数,issue 数 480+,用户 60+,贡献者 80+。2024 年 5 月 25 日,ByConity 一周年线下 meetup 在北京召开。本期主题是《云原生数仓创新之路》,多位重磅嘉宾出席并分享了 ByConity 的最佳实践。
来自浩鲸云的云大数据底座团队负责人叶禧辉分享了电信营运商场景下的数据实时分析实践。
浩鲸云创于2003年,向全球电信运营商提供 BSS/OSS 产品+服务,目前致力于帮助通信、数字政府、公共安全、工业能源、金融等全行业进行数字化转型。
叶禧辉介绍,在当下,电信运营商的实时数据分析会遇到非常多的挑战。由于运营商存在数据量大、查询与分析场景复杂多变的情况,因此,在运营实施过程中,存在着很多因大数据量、业务复杂度高而导致的处理性能问题:
- 实时分析能力难
较难支持对实时数据的分析,因为它无法对实时数据进行增量聚合计算,不能够支持实时数据的增量聚合计算,不支持实时数据的分析。
- 写入瓶颈
当多个节点同时进行写入操作时,节点的性能可能会成为瓶颈,无法支持高并发写入。
- 并发能力有限
受物理 Master 限制,并发性能相对较低,在实际应用中,可能无法支持超过一定数量的并发请求。
- 查询分析性能慢
数据分析在相同硬件条件下,相对于新型 Mpp 数据要有5-10倍的性能劣势。其中当数据分布倾斜时,会导致整体性能的大幅下降;数据分布由表分区方式决定,在通常表创建的时候指定。
- 集群规模受限
由于集群规模受物理 Master 限制,在实际应用中可能很难超过一定数量的物理节点,限制了其扩展性和可伸缩性。
- 数据加载性能较低
对于大量的小型数据表,数据加载性能相对较低,加载速度较慢。
此前,浩鲸云一直在使用 Hadoop 的技术,基于传统的离线方式发展,在运营商面对的复杂情境中,遇到了诸多瓶颈。
为了解决 Hadoop 生态实时性难题,浩鲸云引入了 ClickHouse,解决了实时 Flink 组件难以解决多表关联的实时处理问题。但实际运行下来,还是遇到了不少挑战:
一来,使用复杂,需多种表引擎,对开发者并不是很友好;
二来,多表关联困难,需要定义好分布键,否则会存在严重的性能问题;但场景经常换,一换原来的表就用不了了;
最后,分布式表的方案很复杂,高频数据写入会存在数据分布和重复性问题,很难大规模推广使用。
去年引入 Byconity 之后,叶禧辉发现,它基本解决了之前的那些痛点问题:
- 统一的表引擎,业务切换简单
- 多表关联性能有了质的提升,可以简单进行多表关联汇总
- 扩展简单,存算分离的模式,可以很容易进行主机的扩缩容
此外,ByConity 是一个同时支持实时和离线导入的自助数据分析平台,能够对 PB 级海量数据进行高效分析,提供极致扩展的统一数据分析的分布式数据库,这给它带来了许多独有的优势:
- 读与写分离高性性能保障:通过不同节点类型,保障读与写分离,在大量写入的时候,不影响到读计算的性能。
- 复杂关联性能更优:对复杂计算具有更优计算与分析效率。
- 高并发多租户:支持高并发访问,同时不同的租户可控制需求的资源。
- 存储计算分离:计算层采用 Shared-nothing 架构,存储层采用 Shared-everything 架构,从而更好地支持计算和存储层的水平扩展。
- 数据均衡:扩展与缩减节点时,数据自动均衡,大规模存储时维护更方便。
叶禧辉介绍,运营商的实时分析场景非常复杂,需要先在B域、O域、M域分别做实时数据采集、增量数据采集和批量数据采集,再经过跨域数据实时融合汇总,制成汇总表,提供跨域业务实时服务。
对此,他们的业务化设计思路是:通过可视化业务对象管理,将相同业务主键的物理模型横向拉通形成统一的业务视图,并通过主外健自动化识别对象关系,最终构建出统一的对象业务视图,为后续的指标,标签,编排提供基础。
完成之后,将会建立分层分级指标分类体系和完善的指标口径,完善基础业务、智家业务、新型业务、 5G专题、客户经营专题、财务政企专题等系列指标,完善指标的创建信息、业务口径、脚本、血缘关系等,并统一对外提供。每个指标,都能反映出运营商的大体情况。
在技术上,浩鲸云做了一个流批一体的方案,即融合了 Hadoop 底座的 MPP 方案。总共分实时计算层和批量计算层两部分,Kafka 接收实时信息流,并进行汇总;其余复杂的情况,则放在批量计算层,进行小时级别的资料汇总。最后统一汇总到 Byconity 做整合,并通过大屏输出,呈现在统一的可视化数据分析看板上。
通过建设数据中台建立数据资产体系,规模化服务业务,提升数据质量,最大限度地发挥了数据的价值,解决了客户缺少系统化的数据安全保障方案和统一的可视化看板管理平台的痛点,让数据中台成为支持公司“数字化进阶”的基础设施,大大提升了企业的效率。
更多直播精彩内容,请点击链接观看: