MSMARCO 模型
MS MARCO 是一个大规模信息检索语料库,它基于使用 Bing 搜索引擎的真实用户搜索查询创建。提供的模型可以用于语义搜索,即,给定关键词 / 搜索短语 / 问题,模型将找到与搜索查询相关的段落。
训练数据包含超过 50 万个示例,而完整的语料库包含超过 880 万个段落。
版本历史
v1
版本 1 模型在 MS Marco Passage 检索任务的训练集上进行训练。 这些模型使用 in-batch negative sampling 通过 MultipleNegativesRankingLoss 进行训练,缩放因子为 20,批次大小为 128。
它们可以像这样使用
from sentence_transformers import SentenceTransformer, util
model = SentenceTransformer("distilroberta-base-msmarco-v1")
query_embedding = model.encode("[QRY] " + "How big is London")
passage_embedding = model.encode("[DOC] " + "London has 9,787,426 inhabitants at the 2011 census")
print("Similarity:", util.pytorch_cos_sim(query_embedding, passage_embedding))
模型:
distilroberta-base-msmarco-v1 - 在 MSMARCO dev 数据集 (queries.dev.small.tsv) 上的性能 MRR@10: 23.28