意译数据
在我们的论文《使用知识蒸馏让单语句子嵌入多语化》中,我们展示了意译数据与 MultipleNegativesRankingLoss
的结合是学习句子嵌入模型的强大组合。有关此损失函数的更多信息,请阅读 NLI > MultipleNegativesRankingLoss。
training.py 脚本从数据集概览中加载各种数据集。我们通过从相应的数据集中抽样来构建批次。到目前为止,不同数据集的样本不会混合,即一个批次仅包含来自单个数据集的样本。
由于数据集的大小差异很大,我们执行轮询抽样,以便从每个数据集使用相同数量的批次进行训练。
预训练模型
请查看预训练模型,以浏览所有在这些意译数据集上训练过的模型。
paraphrase-MiniLM-L12-v2 - 在以下数据集上训练:AllNLI, sentence-compression, SimpleWiki, altlex, msmarco-triplets, quora_duplicates, coco_captions,flickr30k_captions, yahoo_answers_title_question, S2ORC_citation_pairs, stackexchange_duplicate_questions, wiki-atomic-edits
paraphrase-distilroberta-base-v2 - 在以下数据集上训练:AllNLI, sentence-compression, SimpleWiki, altlex, msmarco-triplets, quora_duplicates, coco_captions,flickr30k_captions, yahoo_answers_title_question, S2ORC_citation_pairs, stackexchange_duplicate_questions, wiki-atomic-edits
paraphrase-distilroberta-base-v1 - 在以下数据集上训练:AllNLI, sentence-compression, SimpleWiki, altlex, quora_duplicates, wiki-atomic-edits, wiki-split
paraphrase-xlm-r-multilingual-v1 - paraphrase-distilroberta-base-v1 的多语言版本,在超过50种语言的平行数据上进行训练。(教师模型:paraphrase-distilroberta-base-v1,学生模型:xlm-r-base)