MS MARCO - 多语言训练

此文件夹演示了如何为语义搜索 / 信息检索训练一个多语言 SBERT 模型。

我们使用 MS Marco Passage Ranking 数据集作为数据集。这是一个大型数据集，包含来自必应（Bing）搜索引擎的搜索查询以及能回答该查询的相关文本段落。

遗憾的是，该数据集仅提供英文版本。由于没有适合训练语义搜索模型的大型多语言数据集，我们将使用**机器翻译**来翻译训练数据。

翻译数据

我们将使用 EasyNMT 翻译查询和段落，该工具提供超过 150 种语言的最先进机器翻译。

然后，我们将使用多语言知识蒸馏，将在 MS MARCO 上训练的英文模型转换为多语言模型。