层次聚类(Hierarchical Clustering)概述
1. 什么是层次聚类
层次聚类是一种无监督学习的聚类方法,通过计算样本之间的相似度(或距离),逐步构建出一棵树形结构(树状图 / dendrogram),展示数据的层次关系。它不需要预先指定簇的数量,能够在不同层次上观察数据的分组情况。
2. 两大基本策略
| 策略 | 方向 | 过程描述 |
|---|---|---|
| 凝聚式(Agglomerative) | 自底向上 | 每个样本最初是独立的簇,反复合并最近的两簇,直至所有样本合并成一个簇或达到停止条件 |
| 分裂式(Divisive) | 自顶向下 | 从全部样本构成的单一簇开始,逐步把最不相似的子集拆分出来,直至每个样本单独为一簇 |
凝聚式是实际应用中最常见的实现方式。
3. 关键组成要素
- 距离(相似度)度量
- 常用欧氏距离、曼哈顿距离、余弦相似度、相关系数等。不同度量会直接影响聚类结果的形态。
- 链接(Linkage)准则
- 单链(Single):两簇中最近点的距离,易产生“链式”效应。
- 全链(Complete):两簇中最远点的距离,倾向生成紧凑簇。
- 平均链(Average):两簇所有点对距离的平均值。
- Ward 方法:合并后簇内方差最小化,常产生均匀大小的簇。
这些链接方式决定了每次合并时的距离计算方式,是层次聚类的核心参数。
- 树状图(Dendrogram)
- 通过树状图可以直观看到每一步合并的距离(垂直高度),并据此“剪枝”得到所需的簇数。树的分支长度越长,表示被合并的簇之间差异越大。
4. 基本算法流程(以凝聚式为例)
- 初始化:每个样本单独成簇。
- 计算距离矩阵:对所有簇对计算选定的距离度量。
- 寻找最近簇对:依据链接准则选出距离最小的两簇。
- 合并簇:将这两簇合并为新簇。
- 更新距离矩阵:根据链接方式重新计算新簇与其他簇的距离。
- 重复 2–5,直至只剩一个簇或满足停止条件(如预设簇数、距离阈值)。
- 绘制树状图并根据业务需求切割得到最终簇。
5. 计算复杂度与可扩展性
- 时间复杂度:传统实现为O(n²) (距离矩阵的维护)或 O(n³) (完全链接),在大规模数据上计算成本较高。
- 空间复杂度:需要保存O(n²) 的距离矩阵。
为克服这些限制,出现了多种 可伸缩的层次聚类变体:
- BIRCH(平衡迭代归约聚类)利用特征树(CF Tree)压缩数据,适用于上百万级样本。
- CURE 通过抽取簇的代表点并进行聚合,提升对不规则形状簇的捕捉能力。
- 基于图的近似方法(如基于最近邻图的 Agglomerative Clustering)显著降低距离计算量。
这些改进在 2024‑2025 年的文献中被广泛讨论,已成为实际工程项目中处理大数据的常用手段。
6. 优缺点概览
| 优点 | 缺点 |
|---|---|
| 可视化友好:树状图直观展示层次结构,便于解释和业务决策。 | 计算成本高:对大规模数据不友好,需要额外的近似或分布式实现。 |
| 无需预设簇数:可在不同层次上灵活选择簇的数量。 | 对噪声敏感:单链等链接方式容易产生“链式”效应,导致噪声点被错误合并。 |
| 适用于多种距离度量:可根据业务特征自定义相似度。 | 结果唯一性受链接方式影响:不同链接准则会产生截然不同的聚类结构。 |
| 可与其他算法结合:如先用 BIRCH 进行粗聚类,再用层次聚类细化。 | 难以处理高维稀疏数据:距离度量在高维空间可能失效,需要降维或稀疏特化技术。 |
7. 常见应用场景
- 生物信息学:基因表达谱、蛋白质相似性分析(常用热图 + 层次聚类)。
- 图像分割:将像素或超像素按颜色/纹理层次划分。
- 市场细分:客户行为特征的层次划分,帮助制定分层营销策略。
- 文档/文本聚类:依据 TF‑IDF 或嵌入向量构建主题层次结构。
- 异常检测:通过树状图的长枝判断异常点或离群样本。
这些应用在近几年(2023‑2025)仍保持活跃,尤其在 大数据平台 与 机器学习流水线 中,层次聚类常被用作 探索性数据分析 与 特征工程 的前置步骤。
8. 小结
层次聚类是一种通过递归合并(或拆分)构建层次结构的聚类技术,核心在于距离度量、链接准则以及树状图的解释。它的优势在于可视化和无需预设簇数,但在大规模数据上计算成本较高。近年来出现的 BIRCH、CURE、基于近邻图的近似算法等,使其在实际业务中更具可操作性。无论是基因分析、图像处理还是市场细分,层次聚类都提供了一种直观且灵活的方式来揭示数据内部的层次关系。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!