指标平台详解(上):为什么有了 BI ,还需要指标平台?

原创
01/24 17:01
阅读数 13

随着商业智能(BI)的快速普及与深度使用,企业在数据分析“深水区”普遍面临着指标分散定义导致口径不统一、重度依赖 ETL 作业开发报表、问题排查耗时耗力、复用率低等问题。如何兼顾敏捷与统一,实现指标的高效开发和有效管理?我们特策划了本期《指标平台详解》话题,通过两篇文章介绍指标平台建设的必要性,比较三代指标平台的发展脉络,进而提出理想的指标平台的选型标准。以下是系列的上篇《为什么有了 BI,还需要指标平台?》:

一、BI 的深度使用带来了指标管理的新问题

随着 BI 解决方案的快速普及,企业内报表数量越来越多,企业经常会发现虽然 BI 工具呈现出强大的数据分析与展示能力,但在深度使用的过程中却暴露出了新的问题,尤其是在指标管理方面。

首先,业务的迅速发展要求数据需求的响应速度更快。然而,传统的“数仓 + BI” 的模式中,依赖人工开发宽表和汇总表来加工指标,要经历漫长的口径沟通、排期、开发、测试、上线流程,每个需求开发都需要经历复杂和漫长的 ETL 作业流程,导致业务部门的需求响应缓慢;而且当涉及到复杂的指标,需要撰写数百上千行的 SQL 才能够实现定义,对工程师能力要求也很高。依赖物理报表进行数据分析的模式下,分析维度受限于数据集或报表包含的维度,无法提供灵活的数据分析视角,增加字段往往又意味着漫长的数仓排期开发过程,分析不够灵活。

 

图 1:“数仓 + BI”模式下的 ETL 工程架构

 

其次,BI 工具是为数据分析和展示场景而设计,本身并不解决指标的统一管理问题。工程师在数仓进行建模和大量宽表与汇总表的开发,再将数据集或宽表导入 BI 进行分析。在这种模式下,指标通常分散在各种报表和数据集中,而不同的数据集之间同一个指标可能存在口径不一致的问题。每当业务需求变化时,往往需要更改不同的 BI 工具或数据集中的指标口径,指标口径变更维护工作量大、成本高,并带来潜在的数据结果差异,影响数据的准确性和一致性。大型企业甚至部署了多套 BI 工具服务不同的业务部门,这种情况下,指标的口径管理难度就更大。

 

图 2:指标定义与各种消费场景的紧耦合导致口径不一致

 

再次,“数仓 + BI” 模式在指标问题排查方面,效率也不甚理想。由于指标定义分散且不统一,一旦数据出现问题,需要花费大量时间去不同报表和数据集中排查、对比数据,进而找到问题所在。这不仅耗费了大量的时间资源,同时也降低了业务人员对数据的信任度。同时人工变更与回刷工作还难以保障全链路的变更质量,进一步增加了数据不一致的风险。

最后,指标缺乏统一的语义沉淀,使用范围受限。指标在数仓中开发,在 BI 中消费,但是企业的指标消费场景并不限于 BI,比如 DMP 和 CDP 平台、商家后台、营销平台等各种应用要承接数据分析的结果,触发运营管理动作。

综上所述,深度使用 BI 的同时,我们亟需一个能够有效解决指标统一管理、指标统一开发和指标开放服务问题的新工具,既要快速满足业务灵活分析的需求,还能够切实保障指标口径的一致性与数据的准确性。

 

二、新工具的新思路

通过上述分析,我们发现,指标口径的不一致与指标开发效率低的根源都来自于“数仓 + BI ” 模式下,指标的定义与消费的紧耦合性,导致指标口径定义分散在不同的开发链路中,而人工 ETL 开发与变更又效率低下。那么是否可以突破这种模式,通过将指标定义与消费进行解耦,进而实现指标的统一管理并提升开发效率呢?

答案是肯定的。设计一个全新的指标开发与管理工具,需要满足以下能力要求:

  • 实现指标与报表解耦。新工具需要将指标定义与管理抽象出来,确保其与报表设计分离,从而实现业务含义和计算逻辑的集中化管理。
  • 统一指标定义,规范管理。新工具要能够提供一个中央位置,用于定义所有关键业务指标。这样不仅实现了指标定义的统一性,还能确保在整个组织内的不同系统和应用之间实现指标一致,避免了各个团队间的口径不统一。
  • 提升指标生产效率。新工具要实现指标的自动化生产,减少对工程师资源的依赖,实现高效的指标交付。
  • 支持指标的灵活使用和分析。业务用户可以自助实现任意维度灵活分析,摆脱对专业技术团队的依赖。新工具要能够支持灵活且多样化的指标应用,使得业务人员可以根据各自需求,自主进行数据探索和深入分析。
  • 提供开放化的服务。将指标语义沉淀在统一的语义层,并通过各种标准接口对接包含 BI 工具在内的各种指标消费应用,实现一处定义,处处使用。

 

这样的新工具,在国外被称作“Headless BI”,而我们称之为“管、研、用一体”的自动化指标平台。

 

图 3:Headless BI 通过独立的指标语义层解耦指标定义与消费场景,实现口径的真正统一

 

三、理想的指标平台要兼顾敏捷与一致

在数据驱动决策的背景下,理想的指标平台需要确保在迅速响应业务变化的同时,能保持数据分析的准确性和统一性。只有具备以下特性才能实现兼顾敏捷与一致的目标:

业务爱用

理想的指标平台应该深受业务部门的青睐,使他们能够自由探索数据并作出快速决策。只有业务部门爱用,指标平台才会具有生命力,才能真正承载指标定义、生产和全生命周期管理的责任。

首先,平台必须易于使用,使得业务用户不再依赖 IT 开发团队即可自助实现任意维度的灵活分析。通过拖拽式界面和直观的用户操作流程使得定义和分析指标变得异常简单。

其次,平台能清晰展示业务逻辑、数据加工链路以及历史版本,帮助用户快速理解指标口径和变更记录。通过业务语义而不是技术语言让指标口径一目了然,让复杂的数据流程变得透明化。

 

开发省力

理想的指标平台应该帮助开发团队减少日常繁琐的 ETL 数据处理任务,提高开发效率。

其核心能力之一是要通过自动化的指标生产与加速实现“定义即开发”。不再依赖人工 ETL 作业,也无需通过创建复杂的宽表和汇总表来保障查询性能。

其次,要实现“一处变更,全局生效”。平台要能保证集中定义的指标在被修改后,相关的所有报告和分析工具都能实时同步更新。这得益于指标的自动化生产与指标血缘,自动识别变更影响和自动化回刷数据。

 

管理有效

理想的指标平台要支持技术团队实施有效且统一的数据管理策略,全面控制数据分析的准确性和一致性。

定义能力是指标管理的基础,实现任意复杂度的业务指标定义(如二次聚合类指标或标签化定义指标),才能保证在整个组织内部实现指标口径的 100% 一致性。部分企业已经实施了指标平台,但由于只能在平台上定义基础的聚合指标,仍有大量的指标开发要通过人工实现,指标平台最终被绕过,不仅交付效率难以提升,统一管理也无法落实。

在强大的指标定义能力基础上,新一代的指标平台同传统指标管理平台的核心差异,是将指标管理和指标开发同步实现,确保指标定义与计算逻辑不会绕过指标平台,才能真正落实管理。同时平台应具备灵活完善的细粒度权限管理和审计追踪功能以确保数据的安全性和合规性。

当指标的定义、开发和管理被统一在同一个工具和流程中,指标语义的沉淀也就自然在指标平台同步实现了,再通过 API、JDBC 等标准化接口将统一口径的指标开放给下游各类应用来消费,便实现了“一处定义,处处使用”的指标复用。

 

综上所述,理想的指标平台为企业提供了一个既具有高度敏捷性又能确保数据一致性的数据分析和管理环境,实现“管、研、用一体”与开放服务,显著提高了工作效率并支持了更加精准的商业决策。

 

本篇文章我们通过分析传统“数仓 + BI”模式下指标管理、开发和消费面临的诸多挑战产生的原因,提出“将指标语义与消费解耦”,进而实现一致统一的指标定义与管理,并通过自动化的指标生产代替人工开发进而提高指标交付效率的新思路。在此思路上,我们对一款理想的指标平台进行了展望。下一篇文章中,我们将对三代指标平台进行对比,并重点介绍第三代指标平台的技术与功能特性。

展开阅读全文
加载中
点击引领话题📣 发布并加入讨论🔥
打赏
0 评论
0 收藏
0
分享
返回顶部
顶部