训练

此文件夹包含各种示例,用于为特定任务微调 SparseEncoder 模型。

首先,我建议您查看 MS MARCO 示例。

有关如何训练您自己的模型的文档,请参阅训练概述

训练示例

  • distillation - 使模型更小、更快、更轻量的示例。

  • ms_marco - 用于在 MS MARCO 信息检索数据集上进行训练的示例训练脚本。

  • nli - 自然语言推断 (NLI) 数据对于预训练和微调模型以创建有意义的稀疏嵌入非常有帮助。

  • quora_duplicate_questions - Quora 重复问题是一个大型语料库,其中包含来自 Quora 社区的重复问题。该文件夹包含如何训练模型以进行重复问题挖掘和语义搜索的示例。

  • retrievers - 用于在通用信息检索数据集上进行训练的示例训练脚本。

  • sts - 训练模型最基本的方法是使用语义文本相似度 (STS) 数据。在这里,我们有一个句子对和一个表示语义相似度的分数。