Logo

开始使用

  • 安装
    • 使用 pip 安装
    • 使用 Conda 安装
    • 从源码安装
    • 可编辑安装
    • 安装支持 CUDA 的 PyTorch
  • 快速入门
    • 句子转换器 (Sentence Transformer)
    • 交叉编码器 (Cross Encoder)
    • 稀疏编码器 (Sparse Encoder)
    • 后续步骤
  • 迁移指南
    • 从 v4.x 迁移到 v5.x
      • model.encode 的迁移
      • 从 Asym 迁移到 Router
      • 高级用法的迁移
    • 从 v3.x 迁移到 v4.x
      • 关于 CrossEncoder 初始化和方法中参数的迁移
      • 关于 CrossEncoder.fit 中特定参数的迁移
      • CrossEncoder 评估器的迁移
    • 从 v2.x 迁移到 v3.x
      • 关于 SentenceTransformer.fit 中特定参数的迁移
      • 在 SentenceTransformer.fit 中使用的自定义数据集和数据加载器的迁移

句子转换器 (Sentence Transformer)

  • 用法
    • 计算嵌入 (Embeddings)
      • 初始化一个句子转换器模型 (Sentence Transformer Model)
      • 计算嵌入 (Embeddings)
      • 提示模板 (Prompt Templates)
      • 输入序列长度
      • 多进程 / 多 GPU 编码
    • 语义文本相似度
      • 相似度计算
    • 语义搜索
      • 背景
      • 对称与非对称语义搜索
      • 手动实现
      • 优化实现
      • 速度优化
      • Elasticsearch
      • OpenSearch
      • 近似最近邻
      • 检索与重排 (Retrieve & Re-Rank)
      • 示例
    • 检索与重排 (Retrieve & Re-Rank)
      • 检索与重排流程 (Retrieve & Re-Rank Pipeline)
      • 检索:双编码器 (Bi-Encoder)
      • 重排器:交叉编码器 (Cross-Encoder)
      • 示例脚本
      • 预训练的双编码器 (检索)
      • 预训练的交叉编码器 (重排器)
    • 聚类
      • k-均值 (k-Means)
      • 层次聚类 (Agglomerative Clustering)
      • 快速聚类
      • 主题建模
    • 释义挖掘 (Paraphrase Mining)
      • paraphrase_mining() (转述挖掘)
    • 翻译句对挖掘 (Translated Sentence Mining)
      • 基于边界的挖掘 (Margin Based Mining)
      • 示例
    • 图像搜索
      • 安装
      • 用法
      • 示例
    • 嵌入量化 (Embedding Quantization)
      • 二值量化 (Binary Quantization)
      • 标量 (int8) 量化
      • 其他扩展
      • 演示
      • 亲自尝试
    • 创建自定义模型
      • 句子转换器模型的结构
      • 从 Transformers 模型创建句子转换器模型
      • 高级:自定义模块
    • 使用 MTEB 进行评估
      • 安装
      • 评估
      • 附加参数
      • 结果处理
      • 排行榜提交
    • 加速推理
      • PyTorch
      • ONNX
      • OpenVINO
      • 基准测试
  • 预训练模型
    • 原始模型
    • 语义搜索模型
      • 多问答模型
      • MSMARCO 段落模型
    • 多语言模型
      • 语义相似度模型
      • 双语文本挖掘
    • 图像与文本模型
    • INSTRUCTOR 模型
    • 科学相似度模型
  • 训练概述
    • 为何要微调?
    • 训练组件
    • 模型
    • 数据集
      • 数据集格式
    • 损失函数
    • 训练参数
    • 评估器
    • 训练器 (Trainer)
      • 回调 (Callbacks)
    • 多数据集训练
    • 已弃用的训练
    • 最佳基础嵌入模型
    • 与交叉编码器训练的比较
  • 数据集概览
    • Hugging Face Hub 上的数据集
    • 已存在的数据集
  • 损失函数概览
    • 损失函数表
    • 损失修改器
    • 蒸馏
    • 常用损失函数
    • 自定义损失函数
  • 训练示例
    • 语义文本相似度
      • 训练数据
      • 损失函数
    • 自然语言推断
      • 数据
      • SoftmaxLoss (Softmax 损失)
      • MultipleNegativesRankingLoss (多负例排序损失)
    • 释义数据 (Paraphrase Data)
      • 预训练模型
    • Quora 重复问题
      • 训练
      • MultipleNegativesRankingLoss (多负例排序损失)
      • 预训练模型
    • MS MARCO
      • 双编码器 (Bi-Encoder)
    • 套娃嵌入 (Matryoshka Embeddings)
      • 用例
      • 结果
      • 训练
      • 推理
      • 代码示例
    • 自适应层 (Adaptive Layers)
      • 用例
      • 结果
      • 训练
      • 推理
      • 代码示例
    • 多语言模型
      • 扩展您自己的模型
      • 训练
      • 数据集
      • 训练数据来源
      • 评估
      • 可用的预训练模型
      • 用法
      • 性能
      • 引用
    • 模型蒸馏
      • 知识蒸馏
      • 速度-性能权衡
      • 降维
      • 量化
    • 增强型 SBERT (Augmented SBERT)
      • 动机
      • 扩展到您自己的数据集
      • 方法论
      • 场景 1:有限或小型的已标注数据集(少量带标签的句对)
      • 场景 2:无已标注数据集(只有未标注的句对)
      • 训练
      • 引用
    • 使用提示进行训练
      • 什么是提示?
      • 为什么我们要使用提示进行训练?
      • 我们如何使用提示进行训练?
    • 使用 PEFT 适配器进行训练
      • 兼容性方法
      • 添加新适配器
      • 加载预训练的适配器
      • 训练脚本
    • 无监督学习
      • TSDAE
      • SimCSE
      • CT
      • CT (批内负采样)
      • 掩码语言模型 (MLM)
      • GenQ
      • GPL
      • 性能比较
    • 领域自适应
      • 领域自适应与无监督学习
      • 自适应预训练
      • GPL:生成式伪标签
    • 超参数优化
      • HPO 组件
      • 整合所有内容
      • 示例脚本
    • 分布式训练
      • 比较
      • FSDP

交叉编码器 (Cross Encoder)

  • 用法
    • 交叉编码器 vs 双编码器
      • 交叉编码器 vs. 双编码器
      • 何时使用交叉/双编码器?
      • 交叉编码器用法
      • 结合双编码器和交叉编码器
      • 训练交叉编码器
    • 检索与重排 (Retrieve & Re-Rank)
      • 检索与重排流程 (Retrieve & Re-Rank Pipeline)
      • 检索:双编码器 (Bi-Encoder)
      • 重排器:交叉编码器 (Cross-Encoder)
      • 示例脚本
      • 预训练的双编码器 (检索)
      • 预训练的交叉编码器 (重排器)
    • 加速推理
      • PyTorch
      • ONNX
      • OpenVINO
      • 基准测试
  • 预训练模型
    • MS MARCO
    • SQuAD (QNLI)
    • STSbenchmark
    • Quora 重复问题
    • NLI
    • 社区模型
  • 训练概述
    • 为何要微调?
    • 训练组件
    • 模型
    • 数据集
      • 数据集格式
      • 难负例挖掘 (Hard Negatives Mining)
    • 损失函数
    • 训练参数
    • 评估器
    • 训练器 (Trainer)
      • 回调 (Callbacks)
    • 多数据集训练
    • 训练技巧
    • 已弃用的训练
    • 与 SentenceTransformer 训练的比较
  • 损失函数概览
    • 损失函数表
    • 蒸馏
    • 常用损失函数
    • 自定义损失函数
  • 训练示例
    • 语义文本相似度
      • 训练数据
      • 损失函数
      • 推理
    • 自然语言推断
      • 数据
      • CrossEntropyLoss (交叉熵损失)
      • 推理
    • Quora 重复问题
      • 训练
      • 推理
    • MS MARCO
      • 交叉编码器 (Cross Encoder)
      • 训练脚本
      • 推理
    • 重排器 (Rerankers)
      • BinaryCrossEntropyLoss (二元交叉熵损失)
      • CachedMultipleNegativesRankingLoss (缓存多负例排序损失)
      • 推理
    • 模型蒸馏
      • 交叉编码器知识蒸馏
      • 推理
    • 分布式训练
      • 比较
      • FSDP

稀疏编码器 (Sparse Encoder)

  • 用法
    • 计算稀疏嵌入
      • 初始化稀疏编码器模型
      • 计算嵌入 (Embeddings)
      • 输入序列长度
      • 控制稀疏度
      • 使用 SPLADE 模型的可解释性
      • 多进程 / 多 GPU 编码
    • 语义文本相似度
      • 相似度计算
    • 语义搜索
      • 手动搜索
      • 向量数据库搜索
      • Qdrant 集成
      • OpenSearch 集成
      • Elasticsearch 集成
      • Seismic 集成
      • SPLADE-index 集成
    • 检索与重排 (Retrieve & Re-Rank)
      • 概述
      • 交互式演示:简单维基百科搜索
      • 综合评估:混合搜索管道
      • 预训练模型
    • 稀疏编码器评估
      • 带检索评估的示例
    • 加速推理
      • PyTorch
      • ONNX
      • OpenVINO
      • 基准测试
  • 预训练模型
    • 核心 SPLADE 模型
    • 免推理 SPLADE 模型
    • 模型合集
  • 训练概述
    • 为何要微调?
    • 训练组件
    • 模型
    • 数据集
      • 数据集格式
    • 损失函数
    • 训练参数
    • 评估器
    • 训练器 (Trainer)
      • 回调 (Callbacks)
    • 多数据集训练
    • 训练技巧
  • 数据集概览
    • Hugging Face Hub 上的数据集
    • 已存在的数据集
  • 损失函数概览
    • 稀疏专用损失函数
      • SPLADE 损失
      • CSR 损失
    • 损失函数表
    • 蒸馏
    • 常用损失函数
    • 自定义损失函数
  • 训练示例
    • 模型蒸馏
      • MarginMSE (边距均方误差)
    • MS MARCO
      • SparseMultipleNegativesRankingLoss (稀疏多负例排序损失)
    • 语义文本相似度
      • 训练数据
      • 损失函数
    • 自然语言推断
      • 数据
      • SpladeLoss (Splade 损失)
    • Quora 重复问题
      • 训练
    • 信息检索
      • SparseMultipleNegativesRankingLoss (MNRL) (稀疏多负例排序损失)
      • 推理与评估
    • 分布式训练
      • 比较
      • FSDP

包参考

  • 句子转换器 (Sentence Transformer)
    • SentenceTransformer (句子转换器)
      • SentenceTransformer (句子转换器)
      • SentenceTransformerModelCardData (句子转换器模型卡数据)
      • SimilarityFunction (相似度函数)
    • 训练器 (Trainer)
      • SentenceTransformerTrainer (句子转换器训练器)
    • 训练参数
      • SentenceTransformerTrainingArguments (句子转换器训练参数)
    • 损失函数
      • BatchAllTripletLoss (批处理全三元组损失)
      • BatchHardSoftMarginTripletLoss (批处理硬软边距三元组损失)
      • BatchHardTripletLoss (批处理硬三元组损失)
      • BatchSemiHardTripletLoss (批处理半硬三元组损失)
      • ContrastiveLoss (对比损失)
      • OnlineContrastiveLoss (在线对比损失)
      • ContrastiveTensionLoss (对比张力损失)
      • ContrastiveTensionLossInBatchNegatives (批内负例对比张力损失)
      • CoSENTLoss (CoSENT 损失)
      • AnglELoss (AnglE 损失)
      • CosineSimilarityLoss (余弦相似度损失)
      • DenoisingAutoEncoderLoss (去噪自编码器损失)
      • GISTEmbedLoss (GISTEmbed 损失)
      • CachedGISTEmbedLoss (缓存 GISTEmbed 损失)
      • MSELoss (均方误差损失)
      • MarginMSELoss (边距均方误差损失)
      • MatryoshkaLoss (套娃损失)
      • Matryoshka2dLoss (二维套娃损失)
      • AdaptiveLayerLoss (自适应层损失)
      • MegaBatchMarginLoss (大批量边距损失)
      • MultipleNegativesRankingLoss (多负例排序损失)
      • CachedMultipleNegativesRankingLoss (缓存多负例排序损失)
      • MultipleNegativesSymmetricRankingLoss (多负例对称排序损失)
      • CachedMultipleNegativesSymmetricRankingLoss (缓存多负例对称排序损失)
      • SoftmaxLoss (Softmax 损失)
      • TripletLoss (三元组损失)
      • DistillKLDivLoss (蒸馏 KL 散度损失)
    • 采样器
      • 批处理采样器
      • 多数据集批处理采样器
    • 评估
      • BinaryClassificationEvaluator (二元分类评估器)
      • EmbeddingSimilarityEvaluator (嵌入相似度评估器)
      • InformationRetrievalEvaluator (信息检索评估器)
      • NanoBEIREvaluator (NanoBEIR 评估器)
      • MSEEvaluator (均方误差评估器)
      • ParaphraseMiningEvaluator (转述挖掘评估器)
      • RerankingEvaluator (重排序评估器)
      • SentenceEvaluator (句子评估器)
      • SequentialEvaluator (序列评估器)
      • TranslationEvaluator (翻译评估器)
      • TripletEvaluator (三元组评估器)
    • 数据集
      • ParallelSentencesDataset (平行句子数据集)
      • SentenceLabelDataset (句子标签数据集)
      • DenoisingAutoEncoderDataset (去噪自编码器数据集)
      • NoDuplicatesDataLoader (无重复数据加载器)
    • 模块
      • 主模块
      • 更多模块
      • 基础模块
    • quantization (量化)
      • quantize_embeddings() (量化嵌入)
      • semantic_search_faiss() (FAISS 语义搜索)
      • semantic_search_usearch() (uSearch 语义搜索)
  • 交叉编码器 (Cross Encoder)
    • CrossEncoder (交叉编码器)
      • CrossEncoder (交叉编码器)
      • CrossEncoderModelCardData (交叉编码器模型卡数据)
    • 训练器 (Trainer)
      • CrossEncoderTrainer (交叉编码器训练器)
    • 训练参数
      • CrossEncoderTrainingArguments (交叉编码器训练参数)
    • 损失函数
      • BinaryCrossEntropyLoss (二元交叉熵损失)
      • CrossEntropyLoss (交叉熵损失)
      • LambdaLoss (Lambda 损失)
      • ListMLELoss (ListMLE 损失)
      • PListMLELoss (PListMLE 损失)
      • ListNetLoss (ListNet 损失)
      • MultipleNegativesRankingLoss (多负例排序损失)
      • CachedMultipleNegativesRankingLoss (缓存多负例排序损失)
      • MSELoss (均方误差损失)
      • MarginMSELoss (边距均方误差损失)
      • RankNetLoss (RankNet 损失)
    • 评估
      • CrossEncoderRerankingEvaluator (交叉编码器重排序评估器)
      • CrossEncoderNanoBEIREvaluator (交叉编码器 NanoBEIR 评估器)
      • CrossEncoderClassificationEvaluator (交叉编码器分类评估器)
      • CrossEncoderCorrelationEvaluator (交叉编码器相关性评估器)
  • 稀疏编码器 (Sparse Encoder)
    • SparseEncoder (稀疏编码器)
      • SparseEncoder (稀疏编码器)
      • SparseEncoderModelCardData (稀疏编码器模型卡数据)
      • SimilarityFunction (相似度函数)
    • 训练器 (Trainer)
      • SparseEncoderTrainer (稀疏编码器训练器)
    • 训练参数
      • SparseEncoderTrainingArguments (稀疏编码器训练参数)
    • 损失函数
      • SpladeLoss (Splade 损失)
      • FlopsLoss (浮点运算损失)
      • CSRLoss (CSR 损失)
      • CSRReconstructionLoss (CSR 重建损失)
      • SparseMultipleNegativesRankingLoss (稀疏多负例排序损失)
      • SparseMarginMSELoss (稀疏边距均方误差损失)
      • SparseDistillKLDivLoss (稀疏蒸馏 KL 散度损失)
      • SparseTripletLoss (稀疏三元组损失)
      • SparseCosineSimilarityLoss (稀疏余弦相似度损失)
      • SparseCoSENTLoss (稀疏 CoSENT 损失)
      • SparseAnglELoss (稀疏 AnglE 损失)
      • SparseMSELoss (稀疏均方误差损失)
    • 采样器
      • 批处理采样器
      • 多数据集批处理采样器
    • 评估
      • SparseInformationRetrievalEvaluator (稀疏信息检索评估器)
      • SparseNanoBEIREvaluator (稀疏 NanoBEIR 评估器)
      • SparseEmbeddingSimilarityEvaluator (稀疏嵌入相似度评估器)
      • SparseBinaryClassificationEvaluator (稀疏二元分类评估器)
      • SparseTripletEvaluator (稀疏三元组评估器)
      • SparseRerankingEvaluator (稀疏重排序评估器)
      • SparseTranslationEvaluator (稀疏翻译评估器)
      • SparseMSEEvaluator (稀疏均方误差评估器)
      • ReciprocalRankFusionEvaluator (倒数排序融合评估器)
    • 模块
      • SPLADE 池化
      • MLM Transformer (MLM 转换器)
      • 稀疏自编码器 (SparseAutoEncoder)
      • 稀疏静态嵌入 (SparseStaticEmbedding)
    • 回调 (Callbacks)
      • SpladeRegularizerWeightSchedulerCallback (Splade 正则化权重调度器回调)
    • 搜索引擎
      • semantic_search_elasticsearch() (Elasticsearch 语义搜索)
      • semantic_search_opensearch() (OpenSearch 语义搜索)
      • semantic_search_qdrant() (Qdrant 语义搜索)
      • semantic_search_seismic() (Seismic 语义搜索)
  • util (工具)
    • 辅助函数
      • community_detection() (社区发现)
      • http_get() (HTTP GET 请求)
      • is_training_available() (是否可用训练)
      • mine_hard_negatives() (挖掘难负例)
      • normalize_embeddings() (归一化嵌入)
      • paraphrase_mining() (转述挖掘)
      • semantic_search() (语义搜索)
      • truncate_embeddings() (截断嵌入)
    • 模型优化
      • export_dynamic_quantized_onnx_model() (导出动态量化 ONNX 模型)
      • export_optimized_onnx_model() (导出优化后 ONNX 模型)
      • export_static_quantized_openvino_model() (导出静态量化 OpenVINO 模型)
    • 相似度度量
      • cos_sim() (余弦相似度)
      • dot_score() (点积得分)
      • euclidean_sim() (欧几里得相似度)
      • manhattan_sim() (曼哈顿相似度)
      • pairwise_cos_sim() (成对余弦相似度)
      • pairwise_dot_score() (成对点积得分)
      • pairwise_euclidean_sim() (成对欧几里得相似度)
      • pairwise_manhattan_sim() (成对曼哈顿相似度)
Sentence Transformers
  • 训练示例
  • 在 GitHub 上编辑

训练示例

有监督学习

  • 语义文本相似度
  • 自然语言推断
  • Quora 重复问题
  • MS MARCO
  • 重排器 (Rerankers)
  • 模型蒸馏

高级用法

  • 分布式训练
上一篇 下一篇

© 版权所有 2025。

使用 Sphinx 构建,主题由 Read the Docs 提供,基于 此主题。