MS MARCO - 多语言训练
此文件夹演示了如何为语义搜索 / 信息检索训练一个多语言 SBERT 模型。
我们使用 MS Marco Passage Ranking 数据集作为数据集。这是一个大型数据集,包含来自必应(Bing)搜索引擎的搜索查询以及能回答该查询的相关文本段落。
遗憾的是,该数据集仅提供英文版本。由于没有适合训练语义搜索模型的大型多语言数据集,我们将使用**机器翻译**来翻译训练数据。
翻译数据
我们将使用 EasyNMT 翻译查询和段落,该工具提供超过 150 种语言的最先进机器翻译。
然后,我们将使用多语言知识蒸馏,将在 MS MARCO 上训练的英文模型转换为多语言模型。