BGE M3-Embedding 模型介绍

原创

已于 2024-06-30 15:24:52 修改 · 5.2k 阅读

标签

#embedding

于 2024-06-30 15:17:50 首次发布

BGE M3-Embedding来自BAAI和中国科学技术大学，是BAAI开源的模型。相关论文在https://arxiv.org/abs/2402.03216，论文提出了一种新的embedding模型，称为M3-Embedding，它在多语言性（Multi-Linguality）、多功能性（Multi-Functionality）和多粒度性（Multi-Granularity）方面表现出色。M3-Embedding支持超过100种工作语言，支持8192长度的输入文本，同时支持密集检索（Dense Retrieval）、多向量检索（Multi-Vector Retrieval）和稀疏检索（Sparse Retrieval），为现实世界中的信息检索（IR）应用提供了统一的模型基础，通过这几种检索方式的组合，取得了良好的混合召回效果。

我们可以查看官方与openai模型的对比，整体来看，采用三种方式联合检索的BGE-M3(ALL)在三项评测中全面领先，而 BGE-M3(Dense)稠密检索在多语言、跨语言检索中具有明显优势。

BGE-M3 模型亮点#

1. 多语言（Multi-Linguality），训练集包含100+种以上语言
2. 多功能（Multi-Functionality），支持稠密检索（Dense Retrieval），还支持稀疏检索（Sparse Retrieval）与多向量检索（Multi-vector Retrieval）
3. 多粒度（Multi-Granularity） BGE-M3目前可以处理最大长度为8192 的输入文本，支持“句子”、“段落”、“篇章”、“文档”等不同粒度的输入文本

BGE-M3 训练数据#

M3-Embedding模型的训练数据组成是模型效果较好的一个关键创新点，因为它旨在支持多语言性、多功能性和多粒度性，训练数据分为三部分：

无监督数据（Unsupervised Data）：
- 从大量多语言语料库中提取未经标记的文本数据，这些语料库包括Wikipedia、S2ORC、xP3、mC4和CC-News等。
- 这些数据通过提取丰富的语义结构（例如标题-正文、标题-摘要、指令-输出等）来丰富模型的语义理解能力。
- 无监督数据的规模达到了1.2亿文本对，覆盖了194种语言和2655种跨语言对应关系。
微调数据（Fine-tuning Data）：
- 来自标记语料库的高质量数据，包括英语、中文和其他语言的数据集。
- 例如，英语数据集包括HotpotQA、TriviaQA、NQ、MS MARCO等，而中文数据集包括DuReader、T2-Ranking、NLI-zh等。
- 这些数据集用于进一步微调模型，以提高其在特定任务和语言上的性能。
合成数据（Synthetic Data）：
- 为了解决长文档检索任务中数据不足的问题，研究者们生成了额外的多语言微调数据（称为MultiLongDoc）。
- 通过从Wikipedia和MC4数据集中随机选择长文章，并从中随机选择段落，然后使用GPT-3.5生成基于这些段落的问题，生成的问题和所选文章构成新的文本对，增加了训练数据的多样性和覆盖范围。