HuggingFace 的魔转折

06/02 21:00
阅读数 82



看起来 HuggingFace 迅速地接受了业界的反馈,又魔转折地改回 Apache License v2.0。毕竟这对于人工智能开源的法律治理框架影响较大,后续发展值得关注。


刘天栋,开源社正式成员





以上图片由 卫剑钒(卫'r)发现并提供


我们知道,Huggingface 是 AI 领域著名的开源平台,任何人和机构都可以在该平台上发布自己以及使用他人的模型、数据集,为业内提供了研究便利。因此它深受 AI 圈的喜爱,其最受欢迎的 Transformer 库已在 GitHub 上收获 102k 的 Star 量。


不过近日,由 TII 开发并发布在 Huggingface 上的一个大模型引发了广泛争议。该大模型是 400 亿参数的因果解码器模型 Falcon-40B,它在 RefinedWeb 的 1000B token 上进行训练,并使用精选数据集增强。它在 Huggingface 的 OpenLLM 排行榜上排首位,其性能优于 LLaMA、MPT、RedPajama 和 StableLM 等。



排行榜地址:

https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard


虽然 Falcon-40B 模型本身很强大,但其遵循的开源协议却在开源圈引起了轩然大波。它在一个允许商业使用的许可证下可用,即如下 TII Falcon LLM License。



开源协议:

https://huggingface.co/tiiuae/falcon-40b/blob/main/LICENSE.txt


该许可证部分基于 Apache License Version 2.0。Apache License 2.0 协议来自著名的 Apache 基金会,它对商业应用友好。使用者可以在需要的时候修改代码来满足需要并作为开源或商业产品发布 / 销售。


但有人发现了 TII Falcon LLM License 的一些「猫腻」。推特用户 @natfriedman 总结了它与 Apache License 2.0 开源许可的相似与不同之处。其中相似之处在于都授予使用、修改和分发许可作品的广泛许可,要求在分发中包含许可文本和归属,并具有责任限制、担保豁免权。


不过区别在于,TII Falcon LLM License 要求一旦达到收入门槛,需支付商业用途特许权使用费,而大多数开源许可不需要。TII Falcon LLM License 对如何发布或分发作品也有额外限制, 比如要求归属于「Falcon LLM technology from the Technology Innovation Institute」


同时,TII Falcon LLM License 不允许在其他不同的许可下重新授权作品,而大多数开源许可允许衍生作品根据不同的协议获得许可。TII Falcon LLM License 还明确地排除了 Falcon LLM 的某些版本 / 大小的许可,而开源许可通常适用于所有版本。


最后,TII Falcon LLM License 对修改源代码和目标代码都有额外的要求,除非分发编译的模型。总之,该许可允许开放使用和修改,但同时又保留了很多自有权利。



@natfriedman 的观点得到了很多人的附和,另一位推特用户 @_msw_直截了当地指出,将专有许可基于受信任的 Apache License 2.0 之上并称其为「开源」(实际上不是真正的开源),这种利用 Apache 软件基金会来之不易的信誉和品牌的做法是不对的。



又有人问了,这意味着 Falcon-40B 不开源或不是免费软件?@_msw_回复称它既不开源也不是免费软件。



吃瓜群众有的同意并认为 TII Falcon LLM License 根本不是开源许可,但也有的指出 TII Falcon LLM License 本就是「部分」基于开源协议。




业内从事开源人士发表了观点,认为魔改 Apache 或其他主流开源许可证不叫开源,甚至算不上开放内核。



Falcon-40B 是否开源但又不完全开源呢?你们怎么看?


相关资料丨Reference
【原文】:
https://huggingface.co/tiiuae/falcon-40b

【Nat Friedman twitter】
https://twitter.com/natfriedman/status/1662241425310793730?t=ktwJofXR rdUCvPx5lA5uzg&s=05


转载自丨机器之心

编辑丨王玥敏


相关阅读 | Related Reading


KCC@上海 正式成立啦!


北大教授 陈钟谈AI未来:逼近AGI、融入元宇宙,开源是重中之重!


开源社简介

开源社成立于 2014 年,是由志愿贡献于开源事业的个人成员,依 “贡献、共识、共治” 原则所组成,始终维持厂商中立、公益、非营利的特点,是最早以 “开源治理、国际接轨、社区发展、项目孵化” 为使命的开源社区联合体。开源社积极与支持开源的社区、企业以及政府相关单位紧密合作,以 “立足中国、贡献全球” 为愿景,旨在共创健康可持续发展的开源生态,推动中国开源社区成为全球开源体系的积极参与及贡献者。


2017 年,开源社转型为完全由个人成员组成,参照 ASF 等国际顶级开源基金会的治理模式运作。近九年来,链接了数万名开源人,集聚了上千名社区成员及志愿者、海内外数百位讲师,合作了数百家赞助、媒体、社区伙伴。




本文分享自微信公众号 - 开源社KAIYUANSHE(kaiyuanshe)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

展开阅读全文
加载中
点击引领话题📣 发布并加入讨论🔥
打赏
0 评论
0 收藏
0
分享
返回顶部
顶部