STS 模型
这些模型首先在 NLI 数据 上进行训练,然后我们在 STS 基准数据集(文档,数据集)上对它们进行微调。这会生成特别适合衡量句对之间语义相似度的句子嵌入。
数据集
我们使用来自 STS 基准数据集 的训练文件。
训练示例请参见
examples/sentence_transformer/training/stsbenchmark.py - 直接在 STS 数据上训练
examples/sentence_transformer/training/stsbenchmark_continue_training.py - 首先在 NLI 上训练,然后在 STS 数据上训练。
预训练模型
我们提供以下预训练模型
性能比较
以下是其他句子嵌入方法在 STS 基准测试上的性能。这些性能也是通过使用余弦相似度和斯皮尔曼等级相关性计算得出的。请注意,这些模型并未在 STS 基准上进行微调。
平均 GloVe 嵌入:58.02
BERT-as-a-service 平均嵌入:46.35
BERT-as-a-service CLS 向量:16.50
InferSent - GloVe: 68.03
通用句子编码器 (Universal Sentence Encoder):74.92