损失函数概述

警告

要训练 SparseEncoder,您需要 SpladeLossCSRLoss,具体取决于架构。这些是包装损失,在主损失函数之上添加了稀疏性正则化,主损失函数必须作为参数提供。唯一可以独立使用的损失是 SparseMSELoss,因为它执行嵌入级蒸馏,通过直接复制教师的稀疏嵌入来确保稀疏性。

稀疏特定损失函数

SPLADE 损失

SpladeLoss 实现了 SPLADE(稀疏词汇和扩展)模型的专用损失函数。它将主损失函数与正则化项结合,以控制效率

  • 支持以下所有损失作为主损失,但主要有三种损失类型:SparseMultipleNegativesRankingLossSparseMarginMSELossSparseDistillKLDivLoss

  • 默认使用 FlopsLoss 进行正则化以控制稀疏性,但支持自定义正则化器。

  • 通过正则化查询和文档表示,平衡有效性(通过主损失)和效率。

  • 通过 query_regularizerdocument_regularizer 参数,允许对查询和文档使用不同的正则化器,从而实现对不同类型输入的稀疏模式的精细控制。

  • 通过 query_regularizer_thresholddocument_regularizer_threshold 参数,支持对查询和文档使用不同的阈值,允许每种输入类型具有不同的稀疏性严格程度。

CSR 损失

如果您正在使用 SparseAutoEncoder 模块,那么您必须使用 CSRLoss(对比稀疏表示损失)。它结合了两个组件

  • 一个重建损失 CSRReconstructionLoss,确保稀疏表示可以忠实地重建原始嵌入。

  • 一个主损失,在论文中是一个使用 SparseMultipleNegativesRankingLoss 的对比学习组件,它确保语义相似的句子具有相似的表示。但理论上,可以像 SpladeLoss 一样,将下面提到的所有损失用作主损失。

损失函数表

损失函数在您微调模型的性能中起着关键作用。遗憾的是,没有“一刀切”的损失函数。理想情况下,此表应该通过将它们与您的数据格式匹配来帮助缩小您的损失函数选择范围。

注意

您通常可以将一种训练数据格式转换为另一种,从而使更多损失函数适用于您的场景。例如,通过抽样具有相同或不同类别的句子,可以将带有class标签的(sentence_A, sentence_B) pairs转换为(anchor, positive, negative) triplets

注意

SentenceTransformer > 损失概述 中出现的带有 Sparse 前缀的损失函数与其密集版本相同。该前缀仅用于指示哪些损失可以用作主损失来训练 SparseEncoder

输入 标签 适用的损失函数
(锚点, 正例) 对 SparseMultipleNegativesRankingLoss
(句子_A, 句子_B) 对 0 到 1 之间的浮点相似度分数 SparseCoSENTLoss
SparseAnglELoss
SparseCosineSimilarityLoss
(锚点, 正例, 负例) 三元组 SparseMultipleNegativesRankingLoss
SparseTripletLoss
(锚点, 正例, 负例_1, ..., 负例_n) SparseMultipleNegativesRankingLoss

蒸馏

这些损失函数专门设计用于将知识从一个模型蒸馏到另一个模型时使用。这在训练稀疏嵌入模型时相当常见。

文本 标签 适用的损失函数
句子 模型句子嵌入 SparseMSELoss
(句子_1, 句子_2, ..., 句子_N) 模型句子嵌入 SparseMSELoss
(查询, 段落_一, 段落_二) gold_sim(查询, 段落_一) - gold_sim(查询, 段落_二) SparseMarginMSELoss
(查询, 正例, 负例_1, ..., 负例_n) [gold_sim(查询, 正例) - gold_sim(查询, 负例_i) for i in 1..n] SparseMarginMSELoss
(查询, 正例, 负例) [gold_sim(查询, 正例), gold_sim(查询, 负例)] SparseDistillKLDivLoss
SparseMarginMSELoss
(查询, 正例, 负例_1, ..., 负例_n) [gold_sim(查询, 正例), gold_sim(查询, 负例_i)...] SparseDistillKLDivLoss
SparseMarginMSELoss

常用损失函数

在实践中,并非所有损失函数的使用频率都相同。最常见的场景是:

  • (锚点, 正例) 没有任何标签:SparseMultipleNegativesRankingLoss(又称 InfoNCE 或批内负例损失)通常用于训练表现最佳的嵌入模型。这种数据通常相对容易获得,并且模型通常表现非常好。在这里,对于我们的稀疏检索任务,这种格式与 SpladeLossCSRLoss 配合良好,两者通常都使用 InfoNCE 作为其底层损失函数。

  • (查询, 正例, 负例_1, ..., 负例_n) 格式:这种包含多个负例的结构在配置了 SparseMarginMSELossSpladeLoss 下特别有效,尤其是在教师模型提供相似性分数的知识蒸馏场景中。最强的模型是使用 SparseDistillKLDivLossSparseMarginMSELoss 等蒸馏损失进行训练的。

自定义损失函数

高级用户可以创建并使用自己的损失函数进行训练。自定义损失函数只有几个要求:

  • 它们必须是torch.nn.Module的子类。

  • 它们的构造函数中必须有 model 作为第一个参数。

  • 它们必须实现一个 forward 方法,该方法接受 sentence_featureslabels。前者是标记化的批次列表,每列一个元素。这些标记化的批次可以直接馈送到正在训练的 model 以生成嵌入。后者是一个可选的标签张量。该方法必须返回一个单一的损失值或一个损失组件字典(组件名称到损失值),这些组件将被求和以生成最终损失值。当返回字典时,除了总和损失外,各个组件将单独记录,以便您可以监控损失的各个组件。

为了获得自动生成模型卡的完全支持,您可能还希望实现:

  • 一个 get_config_dict 方法,返回一个包含损失参数的字典。

  • 一个 citation 属性,这样您的工作就会在所有使用该损失函数训练的模型中被引用。

可以考虑查看现有的损失函数,以了解损失函数的常用实现方式。