复述数据
在我们的论文《使用知识蒸馏使单语句子嵌入多语言化》中,我们展示了复述数据与MultipleNegativesRankingLoss相结合是学习句子嵌入模型的强大组合。有关此损失函数的更多信息,请阅读NLI > MultipleNegativesRankingLoss。
training.py脚本从数据集概述加载各种数据集。我们通过从各自的数据集中抽样示例来构建批次。到目前为止,示例尚未在数据集之间混合,即一个批次仅包含来自单个数据集的示例。
由于数据集大小差异很大,我们执行循环抽样,以便从每个数据集中使用相同数量的批次进行训练。
预训练模型
请查看预训练模型以查看所有在这些复述数据集上训练的模型。
paraphrase-MiniLM-L12-v2 - 在以下数据集上训练:AllNLI、sentence-compression、SimpleWiki、altlex、msmarco-triplets、quora_duplicates、coco_captions、flickr30k_captions、yahoo_answers_title_question、S2ORC_citation_pairs、stackexchange_duplicate_questions、wiki-atomic-edits
paraphrase-distilroberta-base-v2 - 在以下数据集上训练:AllNLI、sentence-compression、SimpleWiki、altlex、msmarco-triplets、quora_duplicates、coco_captions、flickr30k_captions、yahoo_answers_title_question、S2ORC_citation_pairs、stackexchange_duplicate_questions、wiki-atomic-edits
paraphrase-distilroberta-base-v1 - 在以下数据集上训练:AllNLI、sentence-compression、SimpleWiki、altlex、quora_duplicates、wiki-atomic-edits、wiki-split
paraphrase-xlm-r-multilingual-v1 - paraphrase-distilroberta-base-v1 的多语言版本,在 50 多种语言的并行数据上训练。(教师模型:paraphrase-distilroberta-base-v1,学生模型:xlm-r-base)