语义文本相似性
语义文本相似性 (STS) 对两个文本的相似度进行评分。在此示例中,我们使用 stsb 数据集作为训练数据,以微调 CrossEncoder
模型。请参见以下示例脚本,了解如何根据 STS 数据调整 CrossEncoder
模型
training_stsbenchmark.py - 此示例展示了如何从预训练的 transformer 模型(例如
distilroberta-base
)创建和微调 CrossEncoder 模型。
您也可以训练并使用 SentenceTransformer
模型来完成此任务。有关更多详细信息,请参见 Sentence Transformer > 训练示例 > 语义文本相似性。
训练数据
在 STS 中,我们有标注了相似度分数的句子对。在原始的 STSbenchmark 数据集中,分数范围为 0 到 5。我们已将这些分数归一化到 0 到 1 的范围,以便在 stsb 中使用,因为如您在 损失概览 中所见,BinaryCrossEntropyLoss
需要这样的归一化。
这是我们训练数据的简化版本
from datasets import Dataset
sentence1_list = ["My first sentence", "Another pair"]
sentence2_list = ["My second sentence", "Unrelated sentence"]
labels_list = [0.8, 0.3]
train_dataset = Dataset.from_dict({
"sentence1": sentence1_list,
"sentence2": sentence2_list,
"label": labels_list,
})
# => Dataset({
# features: ['sentence1', 'sentence2', 'label'],
# num_rows: 2
# })
print(train_dataset[0])
# => {'sentence1': 'My first sentence', 'sentence2': 'My second sentence', 'label': 0.8}
print(train_dataset[1])
# => {'sentence1': 'Another pair', 'sentence2': 'Unrelated sentence', 'label': 0.3}
在上述脚本中,我们直接加载 stsb 数据集
from datasets import load_dataset
train_dataset = load_dataset("sentence-transformers/stsb", split="train")
# => Dataset({
# features: ['sentence1', 'sentence2', 'score'],
# num_rows: 5749
# })
损失函数
我们使用 BinaryCrossEntropyLoss
作为损失函数。

对于每个句子对,我们将句子 A 和句子 B 通过基于 BERT 的模型,然后分类器头将基于 BERT 的模型中间表示转换为相似度分数。使用此损失函数,我们应用 torch.nn.BCEWithLogitsLoss
,它接受 logits(又称输出、原始预测)和真实的相似度分数来计算损失,表示模型在此批次上的表现。可以最小化此损失以提高模型的性能。
推理
您可以使用任何 用于 STS 的预训练 CrossEncoder 模型 进行推理,如下所示
from sentence_transformers import CrossEncoder
model = CrossEncoder("cross-encoder/stsb-roberta-base")
scores = model.predict([("It's a wonderful day outside.", "It's so sunny today!"), ("It's a wonderful day outside.", "He drove to work earlier.")])
# => array([0.60443085, 0.00240758], dtype=float32)