Jina AI 发布中英和英德双语 8K 向量模型,百万 Token 大放送!

02/02 17:27
阅读数 40
文章

亮点提前看

  • 双语模型支持:继 8k 向量模型在 Huggingface 突破百万下载后,Jina Embeddings 系列又开源了中英、英德双语 8k 向量模型,分别为 jina-embeddings-v2-zh 和 jina-embeddings-v2-de。

  • 百万 Token 随心用:Jina AI 向所有用户赠送一百万 token,访问 jina.ai/embeddings 即可免费领取密钥,没有任何套路,即刻享受 8K 长度、双语支持和轻松集成的向量模型体验。

模型概述

在 NLP 任务中,文本通过向量模型转换为数字向量,以便进行检索、分类和语义匹配。在 LLM 时代,向量模型在解决上下文长度限制和知识整合中成为了关键角色,尤其在检索增强生成(RAG)场景下,通过将文档转化为向量,模型能快速找到相关文档以生成回答。

Jina Embeddings V2 模型自去年 10 月发布以来备受关注,获得了各界好评,并集成了数十家流行数据库、向量数据库、RAG 和 LLMOps 框架。

最新推出的全新中英、英德双语文本向量模型,不仅继承了 V2 的全部优势,能够处理长达八千词元的文本,更能流畅应对中英双语、英德双语内容,为跨语种的应用插上了翅膀。

模型链接

https://huggingface.co/jinaai/jina-embeddings-v2-base-zh

技术亮点

8k 输入:长文本处理更高效

在构建 RAG 应用时,确定最佳 chunk_size 往往需要花时间进行各种尝试,仔细评估和调整,以便根据特定数据和场景,确定最佳 chunk_size 参数。

传统向量模型最多只能处理 512 Token 的文本,限制了 chunk_size 测试,尤其当面对长篇小说、文档等,就不得不将原始文档切到面目全非。

但 Jina Embeddings v2 能处理高达 8k 的输入,能够实现从实体、句子、段落到整个篇章的多粒度向量表示。实际应用的时候,可以将这些不同层次的向量结合起来,实现更为精准的匹配。

此外,与将文本拆分为众多小向量相比,采用几个较大的向量 在计算和内存使用上更高效。这些较大的文本块包含了更丰富的上下文信息,有助于大型语言模型(LLM)更深入地理解文档内容。

8K token,也就是说一整版人民日报的内容可以压缩成一个向量!

技术创新:JinaBert 架构

Jina Embeddings 系列模型均基于 Jina AI 自研的 JinaBert 架构,这是首次将 ALiBi 应用到编码器上,该架构专为长文本任务优化,直接在 Attention 层处理位置信息,让模型更准确地捕捉词语间的关系。

这一技术创新为 RAG 应用带来了更多可能性。无论是解读法律文件、研究医学文献、还是文学分析,Jina Embeddings 系列模型都表现出色,任务的准确率和效率都大大提升。

jina-embeddings-v2-base-zh 模型体积轻巧,仅 322 MB,包含 1.61 亿参数,输出维度为 768,能够在普通计算机硬件上高效运行,无需依赖 GPU,极大地提升了其实用性和便捷性。这更意味着可以开发者可以实现更低的计算和存储成本,适用于更多的实际落地的场景。

双语支持:无缝跨语言交互

jina-embeddings-v2-base-zh 之所以表现卓越,全赖优质的双语数据集,经过我们严格且平衡的 预训练、一阶微调和二阶微调。这种三步走的训练范式不仅泛化了模型的双语能力,更有效地降低了模型偏见,解决了多语言模型时常遭遇到的“不患寡而患不均”的问题。

虽然许多模型宣称支持多语言,但它们常因在训练中大量采用机器翻译文本,而倾向于某些人群、主题或话题,这种偏见在下游任务中可能被放大。Jina AI 致力于优化两种语言的向量表示,精心筛选训练数据,最大程度降低偏见,确保其性能超越其他多语言模型。

MTEB 排行榜:性能领先

Jina Embeddings v2 系列模型在 MTEB 排行榜上,在文本分类、检索、重排、摘要等任务上均有优势。并且输出结构和 OpenAI 完全一致,是 OpenAI ada 002 模型的理想替代开源解决方案。

在 LLamaIndex 的最新测评文章里,Jina Embeddings 被评为 构建 RAG 系统的最佳向量模型。

为了在命中率和 MRR 方面实现最佳性能,OpenAI、Jina Embeddings 与 CohereRerank/bge-reranker-large reranker 的组合脱颖而出。

LlamaIndex Benchmark

最近,在 Standford HAI 发布的 LoCo 性能测试中,Jina Embeddings 同样名列前茅。

Benchmark on Stanford HAI LoCo 2024.1

开发者指南

开源链接

我们在 https://huggingface.co/jinaai/jina-embeddings-v2-base-zh 提供了详细的模型下载和使用指南,帮助开发者快速上手。

API 集成

使用 Jina Embeddings 的最简单方法是使用 Jina AI 的 Embedding API,并且我们现在对所有用户免费提供了一百万 token!

通过我们的官网 jina.ai/embeddings,您还可以体验文本相似度测试。

Jina Embeddings 的 API 与 OpenAI 的 API 完全兼容,因此您可以轻松地将 Jina Embeddings 与现有应用集成。

此外,Jina Embeddings 已经和十多个流行数据库、向量数据库和 RAG 系统集成,可以根据自己的需求进行选择。

私有化部署

通过应用市场一键部署到您的企业云上,包括阿里云、AWS Sagemaker、Google Cloud Platform 等。

未来展望

Jina AI 将持续扩展我们的多语言 8k 向量模型家族,支持更多语言。同时,我们正推进这些模型与更多合作平台的集成,助力开发者们丝滑使用 Jina Embeddings,实现更丰富的应用场景。我们也将继续在多模态 AI 领域深耕细作,构建出更为强大、灵活的 AI 解决方案。

附录:

  • 模型下载链接

    • 中英双语向量模型:https://huggingface.co/jinaai/jina-embeddings-v2-base-zh

    • 英德双语向量模型:https://huggingface.co/jinaai/jina-embeddings-v2-base-de

本文由 Hugging Face 中文社区内容共建项目提供,稿件由社区成员投稿,经授权发布于 Hugging Face 公众号。文章内容不代表官方立场,文中介绍的产品和服务等均不构成投资建议。了解更多请关注公众号: 

如果你有与开源 AI、Hugging Face 相关的技术和实践分享内容,以及最新的开源 AI 项目发布,希望通过我们分享给更多 AI 从业者和开发者们,请通过下面的链接投稿与我们取得联系:

https://hf.link/tougao

本文分享自微信公众号 - Hugging Face(gh_504339124f0f)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

展开阅读全文
加载中
点击引领话题📣 发布并加入讨论🔥
打赏
0 评论
0 收藏
0
分享
返回顶部
顶部