CT

Carlsson 等人在论文《Semantic Re-Tuning With Contrastive Tension (CT)》（Github）中提出了一种用于句子嵌入的无监督学习方法，该方法仅需要句子即可。

背景

在训练过程中，CT 会构建两个独立的编码器（“Model1”和“Model2”），并共享初始参数来对句子对进行编码。如果 Model1 和 Model2 编码的是同一个句子，那么这两个句子嵌入的点积应该很大。如果 Model1 和 Model2 编码的是不同的句子，那么它们的点积应该很小。

原始的 CT 论文使用了包含多个 mini-batch 的 batch。以 K=7 为例，每个 mini-batch 包含句子对 (S_A, S_A), (S_A, S_B), (S_A, S_C), ..., (S_A, S_H)，对应的标签为 1, 0, 0, ..., 0。换句话说，一对相同的句子被视为正例，而其他不同的句子对则被视为负例（即 1 个正例 + K 个负例）。训练目标是生成的相似度分数与标签之间的二元交叉熵。下图（来自 CT 论文的附录 A.1）说明了这个例子。

CT working

训练后，模型 2 将用于推理，这通常具有更好的性能。

在 CT_Improved 中，我们提出了一种通过使用批内负采样（in-batch negative sampling）来改进 CT 的方法。

性能

在一些初步实验中，我们在 STSbenchmark 数据集（使用维基百科的 100 万个句子进行训练）和 Quora 重复问题数据集（使用 Quora 的问题进行训练）的转述挖掘任务上比较了性能。

方法	STSb (Spearman)	Quora-Duplicate-Question (Avg. Precision)
CT	75.7	36.5
CT-Improved	78.5	40.1

注意：我们使用的是本仓库中提供的代码，而非作者的官方代码。

从句子文件进行 CT 训练

train_ct_from_file.py 从提供的文本文件中加载句子。该文本文件应为每行一个句子。

SimCSE 将使用这些句子进行训练。检查点每 500 步保存到输出文件夹中。

CT

背景

性能

从句子文件进行 CT 训练

更多训练示例