聚类
Sentence-Transformers 可以通过不同的方式用于执行小规模或大规模句子集的聚类。
k-Means
凝聚聚类
agglomerative.py 展示了使用 层次聚类 的示例,使用的是 凝聚聚类算法。与 k-均值相反,我们可以为聚类指定一个阈值:低于该阈值的簇将被合并。如果聚类的数量未知,则此算法可能很有用。通过阈值,我们可以控制我们是想要许多小的、细粒度的簇,还是少数粗粒度的簇。
快速聚类
对于较大的数据集,凝聚聚类非常慢,因此仅适用于几千个句子。
在 fast_clustering.py 中,我们介绍了一种针对大型数据集(5 秒内处理 5 万个句子)进行调整的聚类算法。在大量的句子列表中,它搜索局部社区:局部社区是一组高度相似的句子。
您可以配置余弦相似度的阈值,我们认为两个句子是相似的。此外,您可以指定局部社区的最小大小。这使您可以获得大的粗粒度簇或小的细粒度簇。
我们将其应用于 Quora 重复问题 数据集,输出看起来像这样
Cluster 1, #83 Elements
What should I do to improve my English ?
What should I do to improve my spoken English?
Can I improve my English?
...
Cluster 2, #79 Elements
How can I earn money online?
How do I earn money online?
Can I earn money online?
...
...
Cluster 47, #25 Elements
What are some mind-blowing Mobile gadgets that exist that most people don't know about?
What are some mind-blowing gadgets and technologies that exist that most people don't know about?
What are some mind-blowing mobile technology tools that exist that most people don't know about?
...
主题建模
主题建模是在文档集合中发现主题的过程。
以下图片显示了一个示例,其中显示了在 20 个新闻组数据集中识别出的主题
对于每个主题,您都希望提取描述该主题的词语
Sentence-Transformers 可用于识别句子、段落或短文档集合中的这些主题。有关出色的教程,请参阅 使用 BERT 进行主题建模 以及 BERTopic 和 Top2Vec 仓库。