加载中
重磅| Falcon 180B 正式在 Hugging Face Hub 上发布!

引言 我们很高兴地宣布由 Technology Innovation Institute (TII) 训练的开源大模型 Falcon 180B 登陆 Hugging Face! Falcon 180B 为开源大模型树立了全新的标杆。作为当前最大的开源大模型...

nanoVLM: 简洁、轻量的纯 PyTorch 视觉-语言模型训练代码库

nanoVLM是使用纯 PyTorch 训练 你自己的视觉语言模型 (VLM) 的 最简单 方式。它是一个轻量级 工具包 ,让你可以在免费的 Colab Notebook上启动 VLM 训练。 nanoVLMhttps://github.com/huggin...

HF Papers 直播| AI Insight Talk 强化学习专场

由 Hugging Face × OpenMMLab × ModelScope × 知乎 × 机智流 联合发起的【AI Insight Talk】系列活动重磅来袭! 本期我们将聚焦 强化学习(RL)与推理能力的前沿交汇,邀请多位在 Huggin...

SmolVLA: 让机器人更懂 “看听说做” 的轻量化解决方案

🧭 TL;DR 今天,我们希望向大家介绍一个新的模型: SmolVLA,这是一个轻量级 (450M 参数) 的开源视觉 - 语言 - 动作 (VLA) 模型,专为机器人领域设计,并且可以在消费级硬件上运行。 SmolVL...

参加 Hugging Face 组织的 Gradio & MCP 智能体主题黑客松

🌟 欢迎参加 Gradio & MCP 智能体主题黑客松! 准备好了吗?一场以智能体 (Agent) 和模型上下文协议 (Model Context Protocol,简称 MCP) 为核心的全球在线黑客松即将来袭! 本次活动由 Hu...

社区供稿 | Index-AniSora 技术升级开源: 动漫视频生成强化学习

B 站升级动画视频生成模型 Index-AniSora 技术并开源,支持番剧、国创、漫改动画、VTuber、动画 PV、鬼畜动画等多种二次元风格视频镜头一键生成! 整个工作技术原理基于 B 站提出的 AniSora:...

大模型评估排障指南 | 关于可复现性

这是 大模型评估排障指南 系列文章的第三篇,敬请关注系列文章: 关于推理 关于 公式解析 关于可复现性 假设你读了一篇最近的新模型技术报告,然后心血来潮想要在本机复现他们的结果,却发现根...

社区供稿 | 智源研究院发布开源中文互联网语料库 CCI 4.0 新增高质量英文数据与合成数据

2025 年 5 月 6 日,智源研究院在法国巴黎举行的 GOSIM 全球开源创新论坛上发布大型开源文本数据集 CCI 4.0,为全球的大模型创新发展再次提供重要的开源资源,并积极推动全球开源合作。 CCI ...

大模型评估排障指南 | 关于 LaTeX 公式解析

这是 大模型评估排障指南 系列文章的第二篇,敬请关注系列文章: 关于推理 关于 公式解析 关于可复现性 解析 LaTeX 很难。这个问题在评估输出为 的模型时经常会遇到,例如 Hugging Face 的数学...

设计即合规: 开放AI生态中的用户数据治理实践

Hugging Face Hub 已成为 AI 协作的核心平台,托管了数万个模型、数据集以及交互式应用程序 (Hugging Face Space)。 在开放生态系统中,用户知情同意的管理方式与那些更 "数据饥渴" 的科技公...

社区供稿 | 阶跃星辰开源图像编辑模型 Step1X-Edit: 人人都能用的“改图大师”!

阶跃星辰正式发布并开源图像编辑大模型 Step1X-Edit,性能达到开源 SOTA。该模型总参数量为 19B (7B MLLM + 12B DiT),具备语义精准解析、身份一致性保持、高精度区域级控制三项关键能力;支...

大模型评估排障指南 | 关于推理

这是 大模型评估排障指南 系列文章的第一篇,敬请关注系列文章: 关于推理 关于 公式解析 关于可复现性 模型运行非常慢怎么办? 调整 batch size 如果你想要评估结果完全可复现 (在特定的输入...

社区供稿 | 书生·万象 3.0 升级发布,创新预训练方法

驱动科学研究的人工智能正逐渐改变科学研究的模式,在探索以通专融合实现通用人工智能 (AGI) 的进程中,通用基座大模型,尤其是具备跨模态理解能力的多模态大模型至关重要——多模态大模型的...

社区供稿 | 3700 次预训练总结超参规律,开源海量实验,告别盲猜

近年来,大语言模型 LLMs 在多种任务上的卓越表现已得到广泛认可。然而,要实现其高效部署,精细的超参数优化至关重要。为了探究最佳超参数的规律,我们开展了大规模的实证研究,通过在不同配...

社区供稿 | jina-reranker-m0 全新多模态多语言重排器

今天,我们正式发布jina-reranker-m0。这是一款多模态、多语言重排器 (reranker),其核心能力在于 对包含丰富视觉元素的文档进行重排和精排,同时兼容跨语言场景。 当用户输入一个查询 (que...

让 LLM 来评判 | 技巧与提示

这是 让 LLM 来评判 系列文章的第六篇,敬请关注系列文章: 基础概念 选择 LLM 评估模型 设计你自己的评估 prompt 评估你的评估结果 奖励模型相关内容 技巧与提示 LLM 评估模型已知偏差及缓解...

Open R1 项目进展第三期

原文发布于 2025 年 3 月 11 日 本次更新带来三大突破性进展: CodeForces-CoTs 数据集: 通过 R1 模型蒸馏生成近 10 万条高质量编程思维链样本,同时包含 C++ 和 Python 双语言解题方案 IOI ...

Open R1 项目进展第二期

原文发布于 2025 年 2 月 10 日 我们启动 Open R1 项目已经两周了,这个项目是为了把 DeepSeek R1 缺失的部分补齐,特别是训练流程和合成数据。https://github.com/huggingface/open-r1 这篇...

Open R1 项目进展第一期

DeepSeek R1 发布已经两周 (注: 原文发布于 2 月 2 日) 了,而我们启动 open-r1 项目——试图补齐它缺失的训练流程和合成数据——也才过了一周。这篇文章简单聊聊:https://github.com/huggi...

为什么 AI 模型离科学革命还差得很远?

作者:Thomas Wolf, Hugging Face 联合创始人和首席科学家 发布日期:2025 年 2 月 26 日 原文链接:🔭 The Einstein AI modelhttps://thomwolf.io/blog/scientific-ai.htm 几天前,我在一...

没有更多内容

加载失败,请刷新页面

返回顶部
顶部