飞桨,闪耀2020

2021/02/10 19:30
阅读数 18

点击左上方蓝字关注我们

不知不觉间,2020年已悄然过去。在这不平凡的一年里,纵然有一丝被疫情笼罩的阴霾,可飞桨前进的脚步也没有丝毫放缓,依然闪耀,不仅技术能力持续提高,生态领域也在开疆拓土,可谓“道阻且长,行则将至”!现在,咱们就一起回顾下飞桨2020年的成绩单吧!

飞桨开源框架进入2.0时代

经过长期产业实践的积累与用户使用习惯的洞察,飞桨于今年12月WAVE SUMMIT+2020深度学习开发者峰会上,正式发布了飞桨深度学习框架2.0RC版本,标志着飞桨框架进入了2.0时代。那么新版本的飞桨框架都有哪些显著的提升呢?咱们往下看。

在开发方面,飞桨将默认编程范式升级为动态图,此方式深受广大开发者喜爱。同时飞桨框架2.0为广大用户提供了完美的动转静功能,解决了动态图模型的部署问题,用户可以将动态图模型转换为静态图部署,以获得更好的部署性能。此外,飞桨API体系也得到了全新升级,整体新增了200多个API,并在功能上做到了全面增强。飞桨还推出了简洁易用的高层API,与已有的基础API可以同时使用,让开发者在简捷开发与精细化调优之间自由定制。新的API体系完全兼容历史版本,并且飞桨还提供了升级工具,帮助开发者降低升级迁移成本。

在训练方面,大规模分布式训练历来是飞桨非常有特色的一个功能,随着框架版本升级,这一功能也得到了进一步提升。首先,飞桨推出了业内首个通过异构参数服务器架构,一举解除了传统参数服务器必须严格使用同一种硬件款型训练节点的枷锁,训练任务对硬件型号不敏感,可以同时使用不同的硬件进行混合异构训练,如CPU、v100、P40、K40、昆仑芯片等。此外,分布式训练策略也得到了全面丰富和加强,新增了基于Executor接口的流水线并行训练、Sharding-DP策略、梯度融合+自由混合精度等一系列策略,通过这些策略,用户可以实现对千亿参数规模语言模型的混合并行训练

在推理部署方面,飞桨模型压缩工具PaddleSlim于去年初正式发布1.0版本,支持量化、剪裁、蒸馏、模型结构搜索等功能,与飞桨套件紧密集成,实现了业内体积最小的OCR模型,对YOLOv3实现3.5倍加速,支持对PaddleDetection、PaddleSeg等套件实现快速模型压缩。月下载量从800升至5600以上。

飞桨轻量化推理引擎Paddle Lite在ARM CPU 性能有显著提升,达到业内领先;OpenCL能力相对成熟,并在多个平台上实现落地;尤其对文档、编译、稳定性、资源占用等方面做到了精细打磨,用户体验明显提升。而原生推理库Paddle Inference在GPU和X86上的性能稳步增强,量化计算日趋成熟,新增支持昆仑XPU、飞腾、申威、兆芯等国产芯片,并与UOS、麒麟等国产操作系统打通,打造自主可控的深度学习解决方案。

在服务器端和移动端部署之外,服务化部署框架Paddle Serving经过6个版本迭代,产品功能大幅提升,实现了Pipeline Serving、多语言客户端、TensorRT等多个高级特性,月下载量从300增长到5000。除上述几种部署方式之外,早在去年的5月峰会上,飞桨重磅发布了Paddle.js,它是国内首个前端推理引擎,可以提供模型转换、模型部署、推理预测等功能,支持多种Backend(WebGL、WebGPU、CPU),满足用户对算力的不同需求。通过Paddle.js,用户可以在网页端或者小程序上大规模的部署应用深度学习模型的推理功能。

官方算法库全面升级

基于飞桨框架2.0,官方算法数量从140+升至200+,并且支持使用动态图开发自然语言、视觉、语音和个性化推荐等领域模型,飞桨的研发团队也将官方算法库中绝大部分模型升级为动态图模型,欢迎广大开发者到开源社区中试用。

端到端开发套件惊喜不断

在2020年里,飞桨开发套件可以说是稳中有升。首先家族成员不断扩张,仅5月峰会上飞桨就发布了图像分类PaddleClas、语音合成Parakeet、海量图像分类PLSC三个套件,后续又开源了文字识别PaddleOCR和生成对抗网络PaddleGAN两个套件,这些新贵在发布元年就表现不俗:

  • PaddleClas拥有29个系列的分类网络以及134个预训练模型,其中14个分类预训练模型经过SSLD(百度自研知识蒸馏方案)进一步优化,精度普遍提升了3%以上,为目标检测、分割以及OCR等高阶视觉任务效果的全面提升打下了良好基础。

  • Parakeet是灵活、高效的文本到语音合成套件,可以帮助开发者更便捷地完成语音合成模型的开发和应用。其中飞桨自研的语音合成模型WaveFlow的参数规模只有5.9 M,比当时的WaveGlow要小15倍,并可以在Nvidia v100上以40倍实时的速度合成 22.05kHz的高保真度的语音。

  • PLSC能够实现千万类别规模的分类,通过模型并行、多机拓展和量化功能,实现大规模分类任务的分布式训练速度大幅提升。去年疫情伊始,PLSC就曾被应用到人脸口罩识别系统的训练中,训练速度提升了7倍,显存耗能节省了5倍。

  • 文字识别模型套件PaddleOCR推出了PP-OCR超轻量OCR系统,创新性地融入了19种优化策略,开源了3.5M超轻量中英文OCR模型,以及英文数字、德、日、韩、法等多种语言模型,并提供上述模型训练方法和多种预测部署方式,多次登顶GitHub Trending全球趋势榜和“国际技术趋势榜Papers with Code”。

  • 生成对抗网络套件PaddleGAN集成了风格迁移、超分辨率、动漫画生成、图片上色、人脸属性编辑、妆容迁移等SOTA算法和预训练模型。并且采用模块化设计,能让开发者进行二次研发或是直接使用预训练模型做应用。

除了新增套件之外,原有套件也取得了亮眼的成绩:

  • 目标检测套件PaddleDetection的研发团队探索出了一整套更有深度的算法优化秘籍,将原先 YOLOv3 华丽变身为PP-YOLO,精度mAP可达45.2%,推理速度高达72.9 FPS!两项均超越原生YOLOv4,一经推出,其代表论文更是杀入了“国际技术趋势榜Papers with Code”前列!名副其实地成为了工业应用场景最实用的目标检测模型。

  • 图像分割套件PaddleSeg新增了13个算法以及近40个预训练模型,算法和预训练模型总量分别达到了20+和50+,在近期结束的神经信息处理系统大会NeurIPS 2020上,百度团队使用PaddleSeg中单个语义分割模型HRNet,一举夺冠,准确性得分领先第二名0.37,推理速度更是第二名的7倍!最近PaddleSeg全面升级,成为业界首个动静统一的图像分割套件,为广大开发者带来更佳的用户体验。

  • ERNIE在自然语言处理领域可谓家喻户晓,曾获得过无数殊荣,去年也是收获颇丰。3月一举拿下SemEval 2020 5项冠军;5月发布语言生成预训练模型ERNIE-GEN,刷新语言生成SOTA;6月发布多模态模型ERNIE-ViL,刷新5项任务纪录,登顶权威榜单VCR;7月亮相2020世界人工智能大会,摘取最高荣誉SAIL奖;11月获得中国人工智能学会优秀科技成果奖。如今随着飞机框架2.0发布,ERNIE也完成了动静合一全新升级,欢迎大家试用。

工具组件枝繁叶茂

除了开发套件之外,飞桨还提供多种类型的工具组件。经过一年的打磨,飞桨的工具组件在数量和质量上都取得了长足的进步:

  • PaddleHub飞桨预训练模型应用工具,打造开发者共建的预训练模型共享社区生态,目前已经覆盖CV、NLP、Audio、Video四大领域、21大类、200+高质量的预训练模型(其中开发者贡献42个),而且支持一键预测、一键服务化部署和十行代码迁移训练,易用性强,深受开发者喜爱。

  • 深度强化学习框架PARL具有高灵活性、可扩展性和高性能的特点。PARL于去年4月发布了深度进化学习库EvoKit,助力强化学习进一步落地工业应用场景; 11月在NeurIPS 2020电网调度大赛中夺魁,实现强化学习竞赛三连冠。随着飞桨框架2.0升级,PARL实现了动态图+并行框架的全新升级,更加简单易用。

  • 联邦学习框架PaddleFL在去年仅发布了1.0和1.1两个版本,但是仅这两个版本就实现了两个“国内第一”:国内首个兼具横向、纵向、移动端模拟联邦学习训练能力框架和国内首个支持复杂神经网络纵向联邦学习开源框架

  • 图学习框架PGL基于飞桨框架动态图全新升级,极大提升了易用性,原生支持异构图,并支持分布式图存储及分布式学习算法,覆盖30+图学习模型,包括图语义理解模型ERNIESage等。去年9月,PGL发布融合标签传递和图神经网络的统一模型UniMP(Unified Message Passing),登顶图神经网络权威榜单三项榜首;11月在COLING协办的TextGraphs2020比赛中夺得冠军

  • 在去年5月峰会上,飞桨重磅发布了量子机器学习框架Paddle Quantum(量桨)。量桨是基于飞桨研发的量子机器学习工具集,建立起了人工智能与量子计算之间的桥梁,可快速实现量子神经网络的搭建与训练,同时还提供多项前沿量子计算应用。量子计算和深度学习领域的科研人员可以使用量桨进行量子人工智能的研发,同时量桨也为前沿交叉领域的众多爱好者提供了一条学习量子计算的可行之路。

  • 在去年12月WAVE SUMMIT+2020深度学习开发者峰会上,百度正式发布了螺旋桨生物计算框架PaddleHelix,该框架提供了包括RNA二级结构预测、大规模的分子预训练、药物 - 靶点亲和力预测、以及ADMET成药性预测等一系列算法和模型,重点满足生物医药,疫苗设计和精准医疗方面的AI需求

  • 全流程开发工具PaddleX也是去年新推出的工具组件,它以低代码的形式支持开发者快速实现深度学习算法开发及产业部署。提供极简Python API和可视化界面Demo两种开发模式,可一键安装。针对CPU(Open-VINO)、GPU、树莓派等通用硬件,PaddleX提供了完善的部署方案,并可通过RESTful API快速完成集成和二次开发,开发者无需分别使用不同套件即可完成全流程模型生产部署。可视化推理界面及丰富的产业案例更为开发者提供飞桨全流程开发的最佳实践。

  • 可视化分析工具VisualDL在去年得到了全新升级,新版本的VisualDL支持一键展示网络结构,一行代码绘制loss、learning rate等参数变化过程,全面监控网络特征提取情况,实时查看样本数据变化情况,支持完整保存与分享实验图表,高维数据降维可视化功能全新重塑,并且全主流框架通用,可谓是功能极丰富、易用性极高。

硬件生态持续领先

今年5月峰会上,飞桨发布了硬件生态伙伴合作计划,共有13家伙伴与飞桨达成了合作。至12月峰会时,飞桨硬件生态伙伴版图进一步拓展,增长到了20家,已经适配和正在适配的芯片或IP型号达到29种,在国产硬件的支持方面处于业界领先地位,持续打造自主可控的AI技术底座,加速AI产业生态构建。

积极投入AI标准定制

2020年飞桨参与了算子接口、神经网络表示与模型压缩等多项标准的制定项目,同时还积极投入到全国信息技术标准化技术委员会人工智能分技术委员会的工作中,引领了深度学习标准化的发展方向。

飞桨生态蓬勃发展

秉持开源开放、技术创新,产学研用通力融合,在2020年这一年的时间里,飞桨在企业服务、教育生态、开发者社区三方面实现了生态的全面繁荣:

企业服务

2020年9月6日,由百度联合深度学习技术及应用国家工程实验室共同打造,旨在为各行各业培养“首席AI架构师”的黄埔学院在京举办第三期学员毕业典礼。百度集团副总裁、深度学习技术及应用国家工程实验室副主任、黄埔学院院长吴甜现场致辞,天津飞腾副总经理张志群特邀出席。

此次百度黄埔学院第三期共有65位学员毕业,这些学员来自国家卫星气象中心、上汽通用汽车、宝钢湛江钢铁、京东方、成都国铁电气设备、中国工商银行等企业,遍布工业、农业、金融、交通、电力等数十个行业。学员项目包括智能视觉质检、安全隐患检测、遥感数据分析、交通动态规划、智能客服、营销文案生成等广泛的场景应用。

黄埔学院创办以来,已向业界输出135位AI落地产业的高端人才,成为培养产业智能化AI人才的“黄埔军校”。

除此之外,百度AI快车道在线上进行了20余场直播课程,并前往深圳、上海、南京、成都、西安等城市,举办了近10场为期一整天的线下课程,内容覆盖了OCR、工业巡检质检、推荐系统、各类端侧部署等产业级场景的技术领域,为3000+有技术需求企业的算法工程师、架构师群体,提供源于百度业务实践的深度学习平台飞桨的性能优势、生态优势与切合产业实际应用的解读。不仅有前沿技术解析,还有帮助企业降本增效的解决方案,带领开发者梳理业务问题,并快速将深度学习项目落地。

飞桨积极参与到人工智能产业发展联盟(AIIA)的各个工作组中,积极推进国产开源深度学习平台在各行各业的应用。在12月的WAVE SUMMIT+2020深度学习开发者峰会上,深度学习技术及应用国家工程实验室联合AIIA为12个产业项目颁发了“产业应用创新奖”。

教育生态

2020年,飞桨提供包含学习、实践、比赛、认证、就业的全周期服务体系飞桨学习与实训社区AI Studio用户高速增长,社区学习开发者60万+,社区学习资源126万+,课程学习次数290万+。

到目前为止,飞桨已累计举办深度学习师资培训13期,培养500余所高校1800+名教师,100%覆盖全国985和211高校,支持200余所高校使用飞桨开设学分课程!

在线课程方面,飞桨举办7日打卡营、官方集训营,内容深入浅出,包含百度特色案例,帮助开发者更好掌握深度学习的相关知识。此外,飞桨还打造名师专栏,引入李宏毅老师110小时7套精品内容。配套在线课程,还出版了官方技术书籍《零基础实践深度学习》,帮助开发者更好掌握深度学习的相关知识。

为了携手资深开发者,携手共进、开源共建,飞桨还举办了全球顶会论文复现营,邀请顶会论文审稿人,手把手带开发者解析近两年顶会热门高Star论文,研习深度学习算法,深入动手实践论文复现全流程。除此以外,飞桨还与近5000名开发者,共同完成了16篇前沿论文的模型复现!

科研方面,百度飞桨发布了百度2020年度松果基金,这是国内唯一基于自主研发深度学习框架的青年学者科研基金项目。至2020年底,共有23位青年学者,获得相关资助。

认证方面,百度飞桨与Linux Foundation开源软件大学合作,重磅推出了国内首个深度学习工程师认证(初级、中级),打通从学习到就业全流程。

  • 认证详情:

    https://aistudio.baidu.com/aistudio/certification

2020年末,百度与新一代人工智能科教平台“智海”达成生态合作,共同打造人工智能深度学习的微认证课程体系,促进学科交叉融合,探索科教融合、产教协同的人工智能一流人才的培养模式。

在WAVE SUMMIT+2020深度学习开发者峰会上,飞桨还发布了启航计划,将继续加大在高校的投入,计划3年投入5个亿,与500所高校深度合作,联合高校培养5000名AI专业教师,培养50万AI未来人才。

开发者社区

2020年初,百度飞桨发布飞桨开发者技术专家计划(PaddlePaddle Developers Experts,以下简称PPDE),从0到1搭建飞桨开发者技术专家体系机制,全年共培养PPDE100人。

PPDE的开源内容贡献也相当突出,包括开源项目500+个、模型复现10+个、提交并Merge了150+次Paddle PR、贡献代码量20000+等。

飞桨领航团,是飞桨开发者的兴趣社区,为开发者们提供丰富的本地技术沙龙、Meetup及线上交流平台,目前已建立132个社群,覆盖28个省级行政区,108个高校。

PP SIG通过开放的社区形式,与全球的开发者共同构建一个开放、多元和架构包容的生态体系。目前已建立的PP SIG包括Paddle Serving、PaddleDetection、PaddleOCR、Notebook、PaddleHubPaddleGAN、VisualDL等。目前已经完成贡献或确定贡献内容的SIG成员共72名,累计产出内容77项,包括PaddleOCR智能标注小工具、GO语言高性能部署全流程方案、PaddleDetection PyQt和C#软件等,并且多次合入GitHub PR,为飞桨开源生态贡献重要外部力量。

除此之外,2020年飞桨开放了50场AI竞赛,总奖池超过300万人民币,吸引了来自五大洲、22个国家超过3万名开发者。赛题覆盖人工智能前沿方向,包含自然语言处理、机器视觉、生物计算、安全对抗、强化学习、图学习等。

2020年,飞桨承办多项活动和赛事,包括CVPR、NAACL 等世界级顶会的Workshop Challenge,还包括教育部倡导的大学生科技A类赛事——全国智能车竞赛,更有中国人工智能大赛、国际大数据竞赛、中国高校计算机大赛、百度之星、CCF大数据与计算智能大赛等国内一流赛事。

作为OpenI启智社区的重要一员,飞桨与启智社区的多个开源项目深度合作,共同构建人工智能开发者生态。在WAVE SUMMIT+2020深度学习开发者峰会上,深度学习技术与应用国家工程实验室联合AITISA、OpenI、LF AI & Data为飞桨开发者专家共同颁发了“PPDE 飞桨开发者技术专家”证书。

飞桨荣耀时刻

飞桨在提升产品能力与加强生态的同时,也受到了业界广泛的认可,获得了多个奖项,我们来一起回顾下这些荣耀时刻:

  • 1月19日,工信部“新一代人工智能产业创新重点任务入围揭榜名单”揭晓,百度基于飞桨深度学习平台成为AI开源开放平台项目的揭榜单位。

  • 8月9日,由工信部、公安部及网信办三部委指导主办的“中国人工智能高峰论坛”在厦门召开,首届“中国人工智能·多媒体信息识别技术竞赛”成果也在会上进行颁奖。经过层层评选,百度飞桨开源深度学习平台荣获“创新之星”奖项。

  • 9月5日,百度在服贸会成果发布中展示了最新的人工智能技术。飞桨作为百度自主研发、开源开放、技术领先、功能完备的产业级深度学习平台,被评为“科技创新服务示范案例”。

  • 12月11日,2020中关村大数据日暨数字经济融合创新发展论坛在北京举行。现场还举行了“中关村国家自主创新示范区高精尖产业协同创新平台”授牌仪式,共5家企业及单位有幸入选。作为新一代人工智能底层开源深度学习平台,百度飞桨入选中关村示范区高精尖产业协同创新平台,共同推动中关村示范区数字经济企业发展底层基础开源适配和前沿技术协同研发,建设产业协同、开源共享的数字经济生态。

  • 2020年12月2日,“OpenI/O 2020启智开发者大会”在北京国家会议中心召开。大会公布了《“启智社区优秀开发者激励计划-启梦行动”》评选结果,飞桨成为了首批“启智社区优秀开源项目”之一,飞桨PaddleHub SIG小组也被评为“启智社区优秀开发者”飞桨社区开发者张弘基仅凭兴趣驱动,不断输出专业观点为开发者答疑解惑,并在飞桨社区持续发挥着旗帜性作用,获评首批“启智社区优秀开发者突出贡献奖”

  • 近期,经过北京市官方认证,飞桨正式成为北京市首个AI产业方向创新应用平台。这体现了北京市对百度飞桨平台的技术实力、产业生态聚焦能力的高度认可。百度飞桨将助力北京市加快国际科技创新中心建设,建立产业级深度学习开源开放平台,开展人工智能产业创新应用,打造国内城市与人工智能创新平台合作的新范本。

2021已经到来,飞桨引擎依然动力十足,那它会驶向何方呢?我们相信,它会飞往技术浪潮之巅,会探索开发者理想乐园,还会在各领域产业实践中大显身手。新的一年,行而不辍,未来可期!

飞桨(PaddlePaddle)以百度多年的深度学习技术研究和业务应用为基础,是中国首个开源开放、技术领先、功能完备的产业级深度学习平台,包括飞桨开源平台和飞桨企业版。飞桨开源平台包含核心框架、基础模型库、端到端开发套件与工具组件,持续开源核心能力,为产业、学术、科研创新提供基础底座。飞桨企业版基于飞桨开源平台,针对企业级需求增强了相应特性,包含零门槛AI开发平台EasyDL和全功能AI开发平台BML。EasyDL主要面向中小企业,提供零门槛、预置丰富网络和模型、便捷高效的开发平台;BML是为大型企业提供的功能全面、可灵活定制和被深度集成的开发平台。

END

本文同步分享在 博客“飞桨PaddlePaddle”(CSDN)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

展开阅读全文
加载中

作者的其它热门文章

打赏
0
0 收藏
分享
打赏
0 评论
0 收藏
0
分享
返回顶部
顶部