开源 AI 企业第四范式:拥抱开源降低 AI 门槛

原创
2021/08/05 11:27
阅读数 498

8 月 1 日,由开放原子开源基金会与 Linux 基金会亚太区联合开源中国共同举办的“全球开源技术峰会 GOTC 2021 深圳站”在深圳会展中心圆满落幕。本次峰会汇聚国内顶级开源厂商和开源社区成员,吸引了来自全国各地的数千名开源爱好者参会,共话中国开源生态的发展趋势。

作为本土开源人工智能公司的代表,第四范式技术副总裁郑曌受邀出席峰会主论坛并发表演讲,聚焦公司所在的 AI 领域,讲述了团队将旗下项目开源以来的收获以及对开发者社区的贡献。

郑曌现任第四范式技术副总裁、基础技术负责人,主持设计与开发国内首个开源机器学习数据库 OpenMLDB、开源 AI 操作系统内核 OpenAIOS。带领团队打造出软件定义算力的 AI 算力产品 4Paradigm SageOne。 

随着越来越多优秀开源项目的涌现,开源社区今天已经迈入了蓬勃发展的阶段。郑曌回忆,自己在十年前就在学校里参与了一些开源的工作。学生时代的郑曌热爱编程,曾获 ACM 世界冠军,研发并开源了国内首个推荐算法工具 SVDFeature,获得 KDD Cup 2011 季军、2012 冠军。毕业后的郑曌深耕机器学习,在大规模机器学习系统、个性化推荐、搜索、工程技术团队管理等领域拥有丰富经验。曾任 Google 展示广告架构团队架构师、Pinterest 个性化推荐与搜索团队技术负责人。

学生时代的郑曌面对的是一个处于起步阶段的中国开源社区环境,当时市场上还没有其他的AI开源工具,像github、gitee 这样的代码托管平台也没有开始流行,也没有开源基金会去帮助开源项目成体系的规划和成长。10 年之后再次回到开源社区,郑曌的身份已经从学校的科研开发者变成了AI产业的从业者和开发者,今天的社区相比十年前有了非常大的变化,开发者受到了更多上下游生态的关注和支持,基础设施和配套工具链变得更加成熟。尤其是郑曌与第四范式所在的人工智能领域。

从第一范式到第四范式

近年来,人工智能已经像手机、电力、网络一样融入到人们工作和生活中的方方面面,进入各行各业。人工智能在各个领域帮助人们分析海量的数据,利用这些数据去进行决策,比如在制造业排工排产,在汽车做自动驾驶,利用人工智能做疫情防控等等。

回顾到科学发展的几个不同阶段,从最开始人类依靠钻木取火、记录现象,不断重复记录自己的现象;再到后来人类慢慢悠能力总结这些理论,形成完善的理论科学;再到人类发明计算机系统,通过计算机推演理论模拟现象。这三个时期的三个范式基本上构成了今天大部分行业的科学基础,它们背后的本质其实是人们怎么样通过大量的经验,去寻找科学的规律。 

如今,随着数据的快速增长,随着硬件计算能力的大幅度提升,人工智能已经有能力将过去、结果、数据进行记录,并且从这些记录当中发现规律,对未来将会发生什么样的事情形成预测,形成判断。第四范式标志着人类产业全面进入科学时代。 

在第四范式时代,相比于由人进行数据分析并指导业务决策的传统方案,机器学习技术可让机器自动处理海量信息,并提供实时自动决策能力,这种优势不仅体现在依靠机器对大规模数据进行上亿级别的海量策略设计,也体现在机器能够进行更快速的策略计算和迭代。

AI 落地的困难

第四范式公司一直在 AI 落地的最前线摸爬滚打,在行业里积累了非常多不同的应用场景、案例。比如在金融行业,第四范式致力于帮助金融机构识别欺诈风险;在营销端,可以提升理财营销的效率;在零售行业,可以帮企业提升销量;在制造业,可以帮助企业实现智能化的排工排产。“我们也确实看到了通过机器学习的技术,我们能够去帮助这些实际的应用带来比较大的效果提升。”郑曌说。 

在帮助这些企业的开发者落地 AI 工具的过程中,第四范式也在试着去分析这些成功的 AI 落地案例当中,企业开发者到底做到了一些什么。郑曌表示,“我们在这个过程中发现一个非常重要的点,那就是对开发者来说最重要的是一个非常称手的工具,通过这种称手的工具,通过底层基础技术和基础设施,我们能够让数据、算力、应用,这三个不同的东西去形成一个合力,能够让机器去产生一个最极致的作用和效果。” 

然而在 AI 应用的开发过程中,尤其是面向生产级的应用开发会涉及到非常多的环节,例如特征工程、算法训练等,会涉及到非常多的专业知识。这对一些希望能够去加入 AI 方向的开发者或企业来说,具有非常高的门槛。除此之外,传统的机器学习模型会包含非常多的步骤,包括问题定义、数据收集、特征工程、模型训练、模型评估等非常多的环节。不仅难度非常大,并且每一个环节都会涉及到大量重复的工作,比如反复的自动调参、反复配置资源,这也让整个 AI 应用平均的交付时间变得非常冗长。 

为了解决这些问题,第四范式从 2014 年就开始投入到研究自动机器学习技术的方向,通过研发全栈的自动机器学习产品,实现 AI 应用开发构建的全流程自动化,能够让没有 AI 基础的企业开发者也可以完成 AI 应用的构建。

OpenAIOS 与 OpenMLDB

就像 PC 离不开 PC 操作系统,手机也离不开手机操作系统一样,AI 也需要一个定制的操作系统。通过 AI 操作系统,将AI 的软件应用、AI 算法等,完成与不同异构算力的连接,同时也能对这些异构算力进行更好的管理和调度。 

通过团队对软件应用特性不断的熟悉,我们能够在 AI 应用上针对计算、存储、通讯等不同方面的瓶颈,一次解决这些问题。 

在存储的维度,AI 的训练模型通常很大,存储困难,数据移动非常慢,它会催生出非常多的异构存储设备,这些存储设备需要有一个统一的管理中枢 —— 面向不同的数据,不同的负载,能够将数据放到不同的存储介质上,能够找到成本、性能、容量最佳的平衡点。最终通过对存储、计算、通信的优化,第四范式沉淀了 AI 操作系统的底层核心能力,开源了 OpenAIOS 项目,该项目能够应对异构算进行管理和调度。同时,OpenMLDB 也发布了基于非易失性存储的算力优化特性, 将整体的TCO降低了68%。 

在数据库方面,早期的 DBMS 系统最开始的设置目标是把数据和信息记全、记对,再到后来进入到互联网时代,进入到移动互联网时代,来自传感器、来自端侧的数据越来越多,数据量级也得到了提升,这个时候像 OLAP、HTAP 这样的新型数据库系统的出现,能够让数据处理能力进一步的提升。

而在 AI 领域,数据的质量仍然是制约 AI 技术发展的最大瓶颈,在实际落地过程中,AI 开发者、数据工程师,仍然有超过 90% 的精力花在数据的建设上。虽然机器学习技术的突破能够让机器有能力去帮助人们去实现绝对理性和审视高效的推理判断,但今天不管是事物型的数据库、分析型的数据库还是传统的数仓,面向机器学习时都没有办法保障正确的数据供给。 

为了解决数据供给的问题,第四范式开源了自己的机器学习数据库 —— OpenMLDB。OpenMLDB 聚焦三个机器学习的数据核心问题,即数据如何保障离线和在线的一致性,如何保障数据在 AI 体系里的一致性、正确性,如何保证数据的完整性 

机器学习是一个基于历史的经验,对未来,对未知的信息做预测的系统。然而在超过一半的 AI 落地场景中,因为使用的是传统数据库系统,人们难以区分哪些数据应该是当做历史的经验,哪些数据应该是当做未知的信息,所以经常会出现在机器学习的场景里面,人们拿着未来的数据预测过去这样的常见错误。为了解决这一问题,OpenMLDB 提供了自动实时数据的拼接,数据泄露检测等功能,避免数据错误的使用。

在确保数据高效供给方面,OpenMLDB也为大家带来了算力新特性。“面向机器学习数据库的访、存、算等高IOPS环节, OpenMLDB 通过对数据库逻辑执行计划、物理执行计划进行了分层优化,实现了高并行度的调度规划策略,相比商用 DBMS 数据库,OpenMLDB 实现了高达 10x 的提速。”郑曌介绍。

总的来说,与传统的数据库相比,机器学习数据库一方面在数据开发过程中,能够保障数据的正确性;另一方面,在运维过程中,因为运维的复杂性降低,数据系统对接多个不同的场景导致的数据正确性问题也得到了一定的保障。这也让OpenMLDB在开源一个月的时间里,在 GitHub 上获得了 1700 个Star,且得到了前Cloudera机器学习CTO Tristan Zajonc的认可:“OpenMLDB 在技术上领先业界AI和机器学习的 infra 层数年。

拥抱开源

从上个月开始,第四范式将 OpenMLDB 项目的 50 万行代码全部开源。“我们收获到了非常多来自社会的反馈,也收到了非常多来自于社区小伙伴的关注,在 OpenMLDB 社区也和国内外各种开发者进行了沟通、交流。”郑曌说。 

除了向 AI 的应用开发者提供开源、开放的机器学习数据库和 AI 算力的操作系统内核之外,第四范式还提供了一个线上 AIOS 的社区版,能够为社区的开发者提供免费算力,包括免费的开发环境,给社区开发者提供了一个学习和体验 AI 的平台。 

“感谢各位社区的小伙伴们一直以来的帮助跟支持,第四范式也是开源社区的一个新人,未来不管是 OpenMLDB 还是 OpenAIOS,我们的社区会做持续的迭代和演进,能够和社区的同行们一起共同去解决 AI 在应用落地过程中遇到的这些痛点问题,我们也希望通过我们在技术上的迭代,能够形成更多的创新,能够形成更多的变革。”

展开阅读全文
加载中
点击引领话题📣 发布并加入讨论🔥
打赏
0 评论
0 收藏
0
分享
返回顶部
顶部