https://gitee.com/fit2cloud-feizhiyun/DataEase?_from=gitee_search
DataEase 是开源的数据可视化分析工具,帮助用户快速分析数据并洞察业务趋势,从而实现业务的改进与优化。DataEase 支持丰富的数据源连接,能够通过拖拉拽方式快速制作图表,并可以方便的与他人分享。
https://gitee.com/ghi/dbsyncer?_from=gitee_search
DBSyncer是一款开源的数据同步中间件,提供MySQL、Oracle、SqlServer、PostgreSQL、Elasticsearch(ES)、Kafka、File、SQL等同步场景。支持上传插件自定义同步转换业务,提供监控全量和增量数据统计图、应用性能预警等。
https://gitee.com/streamxhub/streamx?_from=gitee_search
实时即未来,在实时处理流域
Apache Spark
和Apache Flink
是一个伟大的进步,尤其是Apache Flink
被普遍认为是下一代大数据流计算引擎。我们在使用Flink
&Spark
时发现从编程模型、参数配置到项目部署、运维管理都有很多可以抽象共用的地方,我们将一些好的经验固化下来并结合业内的最佳实践。通过不断努力,终于诞生了今天的框架 ——StreamPark
。项目的初衷是 —— 让流处理更简单 。使用
StreamPark
开发,可以极大降低学习成本和开发门槛,让开发者只用关心最核心的业务。StreamPark
规范了项目的配置,鼓励函数式编程,定义了最佳的编程方式,提供了一系列开箱即用的Connectors
,标准化了配置、开发、测试、部署、监控、运维的整个过程,提供了 Scala/Java 两套 API,其最终目的是打造一个一站式大数据平台,流批一体、湖仓一体的解决方案。
https://gitee.com/LarkMidTable/LarkMidTable?_from=gitee_search
LarkMidTable 是一站式开源的数据中台,实现元数据管理,数据仓库开发,数据质量管理,数据的可视化,实现高效赋能数据前台并提供数据服务的产品。
https://gitee.com/MARTIN-88/erd-online?_from=gitee_search
数据血缘关系,数据建模,导出等
https://gitee.com/475660/databand?_from=gitee_search
DataBand(数据帮),快速采集清洗,任务管理,实时流和批处理数据分析,数据可视化展现,快速数据模板开发,ETL工具集、数据科学等。是轻量级的一站式的大数据平台。 我们致力于通过提供智能应用程序、数据分析和咨询服务来提供最优解决方案。
https://gitee.com/datahu-cn/report-designer?_from=gitee_search
Data Hu 报表设计器, 用于数据分析、数据建模、报表设计。 网站地址: https://datahu.cn 文档地址: https://datahu.cn/docs/
https://gitee.com/WeiYe-Jing/datax-web?_from=gitee_search
DataX Web是在DataX之上开发的分布式数据同步工具,提供简单易用的 操作界面,降低用户使用DataX的学习成本,缩短任务配置时间,避免配置过程中出错。用户可通过页面选择数据源即可创建数据同步任务,支持RDBMS、Hive、HBase、ClickHouse、MongoDB等数据源,RDBMS数据源可批量创建数据同步任务,支持实时查看数据同步进度及日志并提供终止同步功能,集成并二次开发xxl-job可根据时间、自增主键增量同步数据。
https://gitee.com/inrgihc/dbswitch?_from=gitee_search
dbswitch工具提供源端数据库向目的端数据库的批量迁移同步功能,支持数据的全量和增量方式同步。包括:
- 结构迁移
支持字段类型、主键信息、建表语句等的转换,并生成建表SQL语句。
支持基于正则表达式转换的表名与字段名映射转换。
- 数据同步 。
基于JDBC的分批次读取源端数据库数据,并基于insert/copy方式将数据分批次写入目的数据库。
支持有主键表的 增量变更同步 (变化数据计算Change Data Calculate)功能(千万级以上数据量的性能尚需在生产环境验证)
组件 用途 clickhouse/doris 离线数仓 kafka 实时数仓 datax,flinkx 数据集成 flink,flinkcdc,seatunnel 数据开发 promicuse 数据监控 druid 数据服务 datart 数据可视化 cdh 大数据平台 dolphin 任务调度
TipDM: TipDM建模平台,开源的数据挖掘工具。 (gitee.com)
TipDM建模平台,是由广东泰迪智能科技股份有限公司研发并开源的数据挖掘工具,TipDM建模平台提供数据丰富的数据预处理、 数据分析与数据挖掘组件,帮助广大中小企业快速建立数据挖掘工程,提升数据处理的效能。
flink-jobs为基于Flink的Java应用程序提供快速集成的能力,可通过继承FlinkJobsRunner快速构建基于Java的Flink流批一体应用程序,实现异构数据库实时同步和ETL。flink-jobs提供了数据源管理模块,通过flink-jobs运行Flink SQL会变得极其简单。使用flink-jobs-clients可以实现基于Java API启动flink-jobs应用程序,还可以将flink任务实现通过XML配置文件来管理。
- 此外,使用flink-jobs-clients可以通过Java API的方式启动flink-jobs应用程序,这样启动操作就可以轻松集成到其他系统中(例如Java Web程序)。
https://gitee.com/yaukie/x-smart-kettle-server
本产品是基于开源Kettle自研的Kettle核心接口调用基础组件,其实早在5年前就想搞了,构思了很久,拖到现在,不过还行,现在也不晚吧 最初的想法是启蒙于当年给烟草做过的一个数据交换平台的项目,数据的抽取是基于Kettle 5.x版本, 使用kettle的spoon客户端做的数据抽取 为企业解决了棘手并且重要的ETL问题,因此Kettle是一款非常优秀的开源数据抽取工具。 同时,kettle自身也有很多的问题,比如, - 只能使用客户端配置作业、转换 - 跨平台移植困难 - 数据安全性较差,系统一旦崩溃,文件库的内容容易丢失 - 客户端非常耗内存、CPU,只适合配置,不适合做业务 - Web界面极其简单、丑陋,生产环境无法投入使用