数据科学家必须了解的6大聚类算法 | 帆软九数云

九数云BI小编 | 发表于：2025-08-15 15:42:35

聚类分析是一种无监督的机器学习任务。与监督学习不同，聚类算法仅依赖输入数据，并致力于在特征空间中找到自然的组或群集。无论是客户分群、异常检测，还是图像分割，都离不开它的身影。

今天就为大家拆解数据科学家必须掌握的六大聚类算法，从核心原理到适用场景，干货满满，建议收藏！

数据科学家必须了解的6大聚类算法插图

一、K-Means聚类

经典的基于距离的聚类算法，通过迭代计算将数据点划分为K个簇，使得每个数据点到其所在簇中心的距离之和最小。

算法步骤

局限性

需预先指定 K 值，对非凸形状簇、异常值敏感。

使用场景

数据科学家必须了解的6大聚类算法插图1

层次聚类是一种自下而上的聚类方法，逐步将相似的小规模对象合并为较大的簇，进而形成最终的聚类结果。

通过构建树状图实现聚类，分为两种策略：

使用场景

数据科学家必须了解的6大聚类算法插图2

DBSCAN 是一种基于密度的聚类算法，簇是由高密度区域组成的连通组件，能自动识别异常值。

核心概念：

流程：

从核心点出发，递归合并所有密度可达的点，通过核心点连接，形成簇。

使用场景：

数据科学家必须了解的6大聚类算法插图3

相对于K-means和DBSCAN，Birch的应用并没有那么广泛，不过它也有一些独特的优势。BIRCH是一种基于层次的聚类算法，适用于大规模数据集，能够高效处理具有高维度、海量样本的数据，同时保持较低的时间和空间复杂度，主要是通过构建聚类特征树来压缩数据。

聚类特征：即CF，用三元组（N, LS, SS）表示一个簇，其中 N 为样本数，LS 为样本坐标总和，SS 为样本坐标平方和，可快速计算簇的均值、半径等
聚类特征树：即CF Tree，一种层次数据结构，叶子节点为紧密相连的簇，即CF 簇，非叶子节点为子节点的 CF 聚合，通过限制树的高度和叶子节点容量控制内存占用

流程

先构建聚类特征树压缩数据，再对叶子节点的 CF 簇进行二次聚类得到最终结果。

使用场景