蚂蚁 AI Infra 团队在深度学习最核心之一的优化器方向持续投入与创新,实现了 AI 训练节约资源、加速收敛、提升泛化等目标。我们将推出“优化器三部曲”系列,这是本系列的第一篇。
本文 6893 字 阅读 18 分钟
深度神经网络(DNNs)的泛化能力与极值点的平坦程度密切相关,因此出现了 Sharpness-Aware Minimization(SAM)算法来寻找更平坦的极值点以提高泛化能力。本文重新审视 SAM 的损失函数,提出了一种更通用、有效的方法——WSAM,将平坦程度作为正则化项来改善训练极值点的平坦度。在各个公开数据集上的实验表明,与原始优化器、SAM 及其变体相比,WSAM 在绝大多数情形都实现了更好的泛化性能。WSAM 也在蚂蚁内部数字支付、数字金融等多个场景被普遍采用并取得了显著效果。该文被 KDD'23 接收为 Oral Paper。
ArXiv 论文《Sharpness-Aware Minimization Revisited: Weighted Sharpness as a Regularization Term》:
https://arxiv.org/abs/2305.15817
代码已集成到蚂蚁开源项目 DLRover:
https://github.com/intelligent-machine-learning/dlrover/tree/master/atorch/atorch/optimizers
随着深度学习技术的发展,高度过参数化的 DNNs 在 CV 和 NLP 等各种机器学习场景下取得了巨大的成功。虽然过度参数化的模型容易过拟合训练数据,但它们通常具有良好的泛化能力。泛化的奥秘受到越来越多的关注,已成为深度学习领域的热门研究课题。
最近的研究表明,泛化能力与极值点的平坦程度密切相关,即损失函数“地貌”中平坦的极值点可以实现更小的泛化误差。Sharpness-Aware Minimization(SAM)[1]是一种用于寻找更平坦极值点的技术,是当前最有前途的技术方向之一。它广泛应用于各个领域,如 CV、NLP 和 bi-level learning,并在这些领域明显优于原先最先进的方法。
由于平台公式无法插入,后文全文请查看:https://mp.weixin.qq.com/s/_P65Ap8TRCD1K6NHwCLF7A
关于 DLRover
DLRover(Distributed Deep Learning System)是蚂蚁集团 AI Infra 团队维护的开源社区,是基于云原生技术打造的智能分布式深度学习系统。
DLRover 使得开发人员能够专注于模型架构的设计,而无需处理任何工程方面的细节,例如硬件加速和分布式运行等。目前,DLRover 支持使用 K8s、Ray 进行自动化操作和维护深度学习训练任务。更多 AI Infra 技术请关注 DLRover 项目。
加入 DLRover 钉钉技术交流群:31525020959
DLRover Star 一下:https://github.com/intelligent-machine-learning/dlrover