释义数据
在我们的论文 Making Monolingual Sentence Embeddings Multilingual using Knowledge Distillation 中,我们展示了释义数据与 MultipleNegativesRankingLoss
相结合,是学习句子嵌入模型的强大组合。阅读 NLI > MultipleNegativesRankingLoss 以获取有关此损失函数的更多信息。
training.py 脚本从 数据集概述 加载各种数据集。我们通过从各自的数据集中抽样示例来构建批次。到目前为止,示例不会在数据集之间混合,即,一个批次仅包含来自单个数据集的示例。
由于数据集大小差异很大,我们执行 轮循采样,以便使用来自每个数据集的相同批次量进行训练。
预训练模型
查看 预训练模型 以查看所有在这些释义数据集上训练的模型。
paraphrase-MiniLM-L12-v2 - 在以下数据集上训练:AllNLI、sentence-compression、SimpleWiki、altlex、msmarco-triplets、quora_duplicates、coco_captions、flickr30k_captions、yahoo_answers_title_question、S2ORC_citation_pairs、stackexchange_duplicate_questions、wiki-atomic-edits
paraphrase-distilroberta-base-v2 - 在以下数据集上训练:AllNLI、sentence-compression、SimpleWiki、altlex、msmarco-triplets、quora_duplicates、coco_captions、flickr30k_captions、yahoo_answers_title_question、S2ORC_citation_pairs、stackexchange_duplicate_questions、wiki-atomic-edits
paraphrase-distilroberta-base-v1 - 在以下数据集上训练:AllNLI、sentence-compression、SimpleWiki、altlex、quora_duplicates、wiki-atomic-edits、wiki-split
paraphrase-xlm-r-multilingual-v1 - paraphrase-distilroberta-base-v1 的多语言版本,在 50 多种语言的并行数据上训练。(教师模型:paraphrase-distilroberta-base-v1,学生模型:xlm-r-base)