自然问题模型
谷歌的自然问题 (Natural Questions) 数据集包含约 10 万个来自谷歌的真实搜索查询,以及维基百科中相应的相关段落。在此数据集上训练的模型非常适用于问答检索任务。
用法
from sentence_transformers import SentenceTransformer, util
model = SentenceTransformer("nq-distilbert-base-v1")
query_embedding = model.encode("How many people live in London?")
# The passages are encoded as [ [title1, text1], [title2, text2], ...]
passage_embedding = model.encode(
[["London", "London has 9,787,426 inhabitants at the 2011 census."]]
)
print("Similarity:", util.cos_sim(query_embedding, passage_embedding))
注意:对于段落,我们必须将维基百科文章的标题与该文章中的文本段落一起编码。
性能
这些模型在自然问题开发数据集上使用 MRR@10 进行评估。
方法 | MRR@10(NQ 开发集 small) |
---|---|
nq-distilbert-base-v1 | 72.36 |
其他模型 | |
DPR | 58.96 |