大数据开源软件

原创
2022/10/31 14:26
阅读数 95

https://gitee.com/fit2cloud-feizhiyun/DataEase?_from=gitee_search

DataEase 是开源的数据可视化分析工具,帮助用户快速分析数据并洞察业务趋势,从而实现业务的改进与优化。DataEase 支持丰富的数据源连接,能够通过拖拉拽方式快速制作图表,并可以方便的与他人分享。

https://gitee.com/ghi/dbsyncer?_from=gitee_search

DBSyncer是一款开源的数据同步中间件,提供MySQL、Oracle、SqlServer、PostgreSQL、Elasticsearch(ES)、Kafka、File、SQL等同步场景。支持上传插件自定义同步转换业务,提供监控全量和增量数据统计图、应用性能预警等。

https://gitee.com/streamxhub/streamx?_from=gitee_search

实时即未来,在实时处理流域 Apache SparkApache Flink 是一个伟大的进步,尤其是 Apache Flink 被普遍认为是下一代大数据流计算引擎。我们在使用 Flink & Spark 时发现从编程模型、参数配置到项目部署、运维管理都有很多可以抽象共用的地方,我们将一些好的经验固化下来并结合业内的最佳实践。通过不断努力,终于诞生了今天的框架 —— StreamPark。项目的初衷是 —— 让流处理更简单

使用 StreamPark 开发,可以极大降低学习成本和开发门槛,让开发者只用关心最核心的业务。StreamPark 规范了项目的配置,鼓励函数式编程,定义了最佳的编程方式,提供了一系列开箱即用的 Connectors,标准化了配置、开发、测试、部署、监控、运维的整个过程,提供了 Scala/Java 两套 API,其最终目的是打造一个一站式大数据平台,流批一体、湖仓一体的解决方案。

https://gitee.com/LarkMidTable/LarkMidTable?_from=gitee_search

LarkMidTable 是一站式开源的数据中台,实现元数据管理,数据仓库开发,数据质量管理,数据的可视化,实现高效赋能数据前台并提供数据服务的产品。

https://gitee.com/MARTIN-88/erd-online?_from=gitee_search

数据血缘关系,数据建模,导出等

https://gitee.com/475660/databand?_from=gitee_search

DataBand(数据帮),快速采集清洗,任务管理,实时流和批处理数据分析,数据可视化展现,快速数据模板开发,ETL工具集、数据科学等。是轻量级的一站式的大数据平台。 我们致力于通过提供智能应用程序、数据分析和咨询服务来提供最优解决方案。

https://gitee.com/datahu-cn/report-designer?_from=gitee_search

Data Hu 报表设计器, 用于数据分析、数据建模、报表设计。 网站地址: https://datahu.cn 文档地址: https://datahu.cn/docs/

https://gitee.com/WeiYe-Jing/datax-web?_from=gitee_search

DataX Web是在DataX之上开发的分布式数据同步工具,提供简单易用的 操作界面,降低用户使用DataX的学习成本,缩短任务配置时间,避免配置过程中出错。用户可通过页面选择数据源即可创建数据同步任务,支持RDBMS、Hive、HBase、ClickHouse、MongoDB等数据源,RDBMS数据源可批量创建数据同步任务,支持实时查看数据同步进度及日志并提供终止同步功能,集成并二次开发xxl-job可根据时间、自增主键增量同步数据。

https://gitee.com/inrgihc/dbswitch?_from=gitee_search

dbswitch工具提供源端数据库向目的端数据库的批量迁移同步功能,支持数据的全量和增量方式同步。包括:

  • 结构迁移

支持字段类型、主键信息、建表语句等的转换,并生成建表SQL语句。

支持基于正则表达式转换的表名与字段名映射转换。

  • 数据同步

基于JDBC的分批次读取源端数据库数据,并基于insert/copy方式将数据分批次写入目的数据库。

支持有主键表的 增量变更同步 (变化数据计算Change Data Calculate)功能(千万级以上数据量的性能尚需在生产环境验证)

睿思BI: 睿思BI-数据仪表盘,开源商业智能,数据可视化系统 (gitee.com)

睿思BI开源版-VUE版本: 睿思BI开源版VUE版本,基于springboot+vue (gitee.com)

睿思OLAP-多维分析系统: 睿思BI-OLAP开源多维分析系统 (gitee.com)

LarkMidTable: LarkMidTable 是一站式开源的数据中台,实现中台的基础建设,数据治理,数据开发,监控告警,数据服务,数据的可视化,实现高效赋能数据前台并提供数据服务的产品。 (gitee.com)

组件 用途
clickhouse/doris 离线数仓
kafka 实时数仓
datax,flinkx 数据集成
flink,flinkcdc,seatunnel 数据开发
promicuse 数据监控
druid 数据服务
datart 数据可视化
cdh 大数据平台
dolphin 任务调度

TipDM: TipDM建模平台,开源的数据挖掘工具。 (gitee.com)

TipDM建模平台,是由广东泰迪智能科技股份有限公司研发并开源的数据挖掘工具,TipDM建模平台提供数据丰富的数据预处理、 数据分析与数据挖掘组件,帮助广大中小企业快速建立数据挖掘工程,提升数据处理的效能。

flink-jobs: Flink流批一体数据处理快速集成开发框架。不仅能够快速构建基于Java的Flink流批一体应用程序,实现异构数据库实时同步和ETL,还可以让Flink SQL变得极其简单,玩转Flink。 (gitee.com)

flink-jobs为基于Flink的Java应用程序提供快速集成的能力,可通过继承FlinkJobsRunner快速构建基于Java的Flink流批一体应用程序,实现异构数据库实时同步和ETL。flink-jobs提供了数据源管理模块,通过flink-jobs运行Flink SQL会变得极其简单。使用flink-jobs-clients可以实现基于Java API启动flink-jobs应用程序,还可以将flink任务实现通过XML配置文件来管理。

  • 此外,使用flink-jobs-clients可以通过Java API的方式启动flink-jobs应用程序,这样启动操作就可以轻松集成到其他系统中(例如Java Web程序)。

etl-designer-server: 基于kettle二次开发,涵盖关系型数据库、网络服务、NoSQL数据库,将图形化设计由C/S架构升级为B/S架构,脱离客户端束缚,随时随地修改脚本,添加定时调度、项目管理、版本控制、发布回滚、日志追踪、性能监控等丰富实用的功能,支持MySQL、Oracle等多种关系型数据库在内的多种数据库。 新增BI图表设计功能,包括模型(数据库表)定义,模型脚本自动创建,图表设计,布局设计,大屏展示 (gitee.com)

https://gitee.com/yaukie/x-smart-kettle-server

本产品是基于开源Kettle自研的Kettle核心接口调用基础组件,其实早在5年前就想搞了,构思了很久,拖到现在,不过还行,现在也不晚吧  
最初的想法是启蒙于当年给烟草做过的一个数据交换平台的项目,数据的抽取是基于Kettle 5.x版本, 使用kettle的spoon客户端做的数据抽取  
为企业解决了棘手并且重要的ETL问题,因此Kettle是一款非常优秀的开源数据抽取工具。  
同时,kettle自身也有很多的问题,比如,
- 只能使用客户端配置作业、转换
- 跨平台移植困难
- 数据安全性较差,系统一旦崩溃,文件库的内容容易丢失
- 客户端非常耗内存、CPU,只适合配置,不适合做业务
- Web界面极其简单、丑陋,生产环境无法投入使用
展开阅读全文
加载中

作者的其它热门文章

打赏
0
0 收藏
分享
打赏
0 评论
0 收藏
0
分享
返回顶部
顶部