自然问题模型

谷歌的自然问题 (Natural Questions) 数据集包含约 10 万个来自谷歌的真实搜索查询,以及维基百科中相应的相关段落。在此数据集上训练的模型非常适用于问答检索任务。

用法

from sentence_transformers import SentenceTransformer, util

model = SentenceTransformer("nq-distilbert-base-v1")

query_embedding = model.encode("How many people live in London?")

# The passages are encoded as [ [title1, text1], [title2, text2], ...]
passage_embedding = model.encode(
    [["London", "London has 9,787,426 inhabitants at the 2011 census."]]
)

print("Similarity:", util.cos_sim(query_embedding, passage_embedding))

注意:对于段落,我们必须将维基百科文章的标题与该文章中的文本段落一起编码。

性能

这些模型在自然问题开发数据集上使用 MRR@10 进行评估。

方法 MRR@10(NQ 开发集 small)
nq-distilbert-base-v1 72.36
其他模型
DPR 58.96