语义文本相似度

语义文本相似度 (Semantic Textual Similarity, STS) 任务是为两个文本的相似度打分。在本例中，我们使用 stsb 数据集作为训练数据来微调我们的稀疏编码器模型。请参阅以下示例脚本，了解如何调优 SparseEncoder，特别是如何在 STS 数据上微调 splade 模型。

train_splade_stsbenchmark.py - 此示例展示了如何通过使用一个预训练的 splade 模型（例如 splade-cocondenser-ensembledistil）并对其进行微调，以便在特定任务上获得更好的结果。

训练数据

在 STS 中，我们有句子对和它们对应的相似度得分标注。在原始的 STSbenchmark 数据集中，分数范围是 0 到 5。在 stsb 数据集中，这些分数已被归一化到 0 到 1 的范围，这是 SparseCosineSimilarityLoss 所要求的，具体可以参考损失函数概览。

以下是我们的训练数据的简化版本

from datasets import Dataset

sentence1_list = ["My first sentence", "Another pair"]
sentence2_list = ["My second sentence", "Unrelated sentence"]
labels_list = [0.8, 0.3]
train_dataset = Dataset.from_dict({
    "sentence1": sentence1_list,
    "sentence2": sentence2_list,
    "label": labels_list,
})
# => Dataset({
#     features: ['sentence1', 'sentence2', 'label'],
#     num_rows: 2
# })
print(train_dataset[0])
# => {'sentence1': 'My first sentence', 'sentence2': 'My second sentence', 'label': 0.8}
print(train_dataset[1])
# => {'sentence1': 'Another pair', 'sentence2': 'Unrelated sentence', 'label': 0.3}

在上述脚本中，我们直接加载了 stsb 数据集。

from datasets import load_dataset

train_dataset = load_dataset("sentence-transformers/stsb", split="train")
# => Dataset({
#     features: ['sentence1', 'sentence2', 'score'],
#     num_rows: 5749
# })

损失函数

我们使用 SparseCosineSimilarityLoss 作为我们的损失函数。

对于每个句子对，我们将句子 A 和句子 B 传入稀疏编码器模型，从而得到稀疏嵌入 u 和 v。然后使用余弦相似度计算这些嵌入的相似度，并将结果与真实的相似度得分进行比较。请注意，这两个句子是通过同一个模型而不是两个独立的模型进行处理的。具体来说，模型会最大化相似文本的余弦相似度，并最小化不相似文本的余弦相似度。这使得我们的模型能够被微调，并识别句子的相似性。

更多详情，请参阅 Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks。