DSS结合数据治理应用与实践

原创
05/08 11:07
阅读数 744

【我与WeDataSphere的故事】征文大赛获奖文章分享(三)


作者简介|PROFILE

曲佳境

大数据平台开发工程师

奋斗在一线的开发者,目前担任萨摩耶数字科技有限公司数据业务部基础平台组负责人,在数据采集,接入,清洗,治理以及数据安全方面有一定的经验。




01  DSS应用场景


大数据对于公司的贷前、贷中、模型、风控业务以及客户生命周期管理等各个方面都起到了至关重要的作用,在这个瞬息万变的时代,数据具有时效性,快速高效又安全统一地利用数据是关键。
在未使用DSS前,对业务方来说,作业状态进度并不透明,各业务科室的分析作业没有统一的管理,作业调度发布流程繁琐,发布随意,报表开发复杂,缺乏一个高效的、全流程打通的数据分析平台;对于数据团队来说,管理调度任务非常繁琐,需要耗费大量人力协助业务方开发。
DSS是一个可以解决上述问题的统一数据分析平台,DSS为各个业务科室提供了自助代码开发,任务测试,查看任务状态,取数、创建工作流程、跑批调度以及数据可视化等一站式服务,为业务开发人员免去了很多不必要的沟通联调时间,也让数据分析任务的发布更加流程化,调度发布操作也更加简便和人性化。DSS内置了数据交换,数据开发,数据数据质量,数据可视化和数据发送等功能,业务开发人员通过DSS完成几乎所有的任务。不仅如此,DSS上层支持多种计算引擎,方便业务方开发,也可以很方便地定制和引入新的计算引擎,同时在下层又能兼容多种数据源,对现有集群环境很友好。



02  DSS解决的问题


在萨摩耶数科, DSS作为统一数据分析平台被推广到各个业务科室使用,一些旧任务也开始逐步迁移DSS平台,通过DSS平台来管理。DSS主要解决了以下问题:
1.数据开发分析效率低,需求上线周期长
2.人力投入大
3.数据发现效率低,存储成本高
4.无法提供统一的数据服务
5.任务缺乏统一管理
6.可视化报表开发效率低

03 DSS最佳实践


Linkis、Visualis、Schedulis和工作流在整个大数据平台中的使用频率很高,业务方直接使用这些组件来完成开发、测试、调度和上线工作。
我们在开源DSS基础上修复了一些影响业务使用的BUG,同时也做了一些定制化开发。我们定制开发了数据治理模块并集成到DSS平台,通过数据治理模块,各个业务科室可以清晰地看到当前自己科室开发库的空间配额、文件数配额:


可以看到当前科室开发库中各个表的元数据信息,包括表大小、文件数、目录数、平均文件大小、是否分区、创建时间、更新时间和最近一次访问时间:


点击表或搜索一张表后,可以显示详细血缘关系、表结构、表类型、分区等信息,如下:
通过数据治理模块,业务方可以很方便地了解表的相关信息以及业务含义,自动生成数据地图、数据字典,降低数仓数据的学习成本。后续也会继续集成列级血缘,减少人工查看字段计算口径的时间,提高业务理解和业务开发效率以及实现基于血缘的自动化跑批失败重试机制。


目前我们使用的统一数据分析平台版本是0.9.3,仅仅支持离线跑批任务,我们又在此基础上集成开发了实时计算平台,业务方可以以SQL的形式发布实时任务,并自动生成Flink作业提交执行。


我们也计划根据公司业务迭代报表展示和数据可视化模块,实现按业务分类、按维度选取的拖拽式报表生成功能。


04 带来的业务价值



  1. 提高了数据分析效率,分析任务上线速度加快
  2. 节约了人力成本
  3. 为公司各业务科室使用数据提供便利的一站式服务
  4. 各业务科室能够自行管理各自的业务代码、随时查看任务状态
  5. 业务开发无需关注底层具体细节
  6. 报表开发效率提高


05 期待的功能与改进


dss+linkis是国内优秀的开源项目,微众的小伙伴的努力有目共睹,我们对linkis+dss的实践场景和使用前景非常看好,但也有一些对它的期待:
  • 期待添加实时相关功能,集成一个基于Flink的,集SQL编辑、测试、发布、上线于一体的实时计算平台
  • 类似神策的自助分析功能
  • 期望相关BUG修复:JDBCEntrance假死不提交任务不更新任务状态、空指针问题;Azkaban的WebServer和Executor部署存在高耦合;CodeParser解析代码报错;调度任务失败时无关键错误信息给定位问题带来不便,建议提交任务到Yarn时可以在日志中看到相应的ApplicationID或JobID;修改EngineManager并行度MaxRunningJob不生效;与实际执行任务相关的进程间耦合性较高,高可用性较低,例如GATEWAY,PublicService,Azkaban等,任何服务意外退出都会导致正在运行的任务全部挂掉,希望能对重要组件做高可用和智能重试机制;Azkaban上Kill任务后状态一直为Killing,后台数据库不更新状态;Azkaban没有做权限隔离,用户可以随意查看和操作他人的调度;Gateway中netty发送Websocket大小限制65536字节,用户脚本内容过多时会导致无法加载内容(Issue: #476);任务管理器和引擎管理器显示异常,有时需要强制刷新才能正常显示;Visualis可视化报表对维度排序会报错;
  • 开通登陆账号步骤繁琐,建议增加注册或自动化建账号功能

相关版本



linkis 0.9.3
hadoop 2.6.0
hive 1.2.1



 扫码关注我们 

                               更多惊喜,请点击阅读原文                                                    




本文分享自微信公众号 - WeDataSphere(gh_273e85fce73b)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

展开阅读全文
打赏
0
0 收藏
分享
加载中
更多评论
打赏
0 评论
0 收藏
0
分享
返回顶部
顶部