什么是流形学习(Manifold Learning)

AI解读 2个月前 硕雀
26 0

流形学习Manifold Learning‍ 是机器学习和数据科学中的一种非线性降维技术。它的核心假设是:虽然我们观察到的数据往往存在于高维空间中(比如一张5000维的图像),但这些数据实际上是从一个维度更低的“流形”上采样下来的。流形学习的目标是找出这个隐藏的低维结构,并将高维数据映射低维空间中,以便于可视化、分析或降噪。

以下是关于流形学习的详细介绍,分为概念、原理、常见方法和应用四个部分:

1. 核心概念:什么是“流形”?

流形(Manifold)是数学中的一个概念,它可以简单理解为“局部看起来是平坦的曲面”。

  • 直观理解:想象地球表面。地球是一个球体(3维),但当你站在地面上,你只会感觉到自己处在一个平坦的二维平面上。流形就是指这种在高维空间中嵌入的、局部近似为平面的结构。
  • 数据视角:在机器学习中,我们常常面对成千上万维度的数据(如每个像素一个维度)。但如果你观察这些数据的分布,你会发现它们往往并没有填满整个高维空间,而是集中在一个低维的“曲面”或“曲线”上。流形学习就是试图找到这条曲线或曲面。

2. 基本原理:怎么工作?

流形学习的核心思想是保持“邻近关系”‍。

  • 局部保持:它假设如果两个点在高维空间中非常接近(即在数据分布的同一个局部区域内),那么它们在低维流形中也应该保持接近。通过构建“邻近图”(连接最近的点),算法试图保留这种局部结构。
  • 全局结构:不同的算法侧重点不同。有的侧重于保持局部细节(如LLE),有的则兼顾整体形状(如Isomap)。

3. 主要方法:有哪些代表性算法?

流形学习并不是一种算法,而是一类算法的统称。以下是几种经典且常用的方法:

  1. 等距映射(Isomap)‍:
    • 核心思想:它先在高维空间中构建“最近邻图”,然后用图论中的“最短路径”来近似测量“测地线距离”(即沿着流形表面的真实距离),最后用多维尺度分析MDS)将其展开。
    • 特点:可以很好地保持全局结构,但计算量较大。
  2. 局部线性嵌入(LLE)‍:
    • 核心思想:它假设每个点都可以用它的邻居的线性组合来表示(类似于局部的“平面”),然后在低维空间中找到一组点,使得这种线性关系仍然成立。
    • 特点:保持局部结构效果好,计算相对高效。
  3. 拉普拉斯特征映射Laplacian Eigenmaps,LE)‍:
    • 核心思想:通过构建图的拉普拉斯矩阵(反映图的连接关系),找出其特征向量来构建低维嵌入。
    • 特点:在保持局部相似性方面表现突出。
  4. t-SNE(t-Distributed Stochastic Neighbor Embedding)‍:
    • 核心思想:虽然不是传统意义上的流形学习算法,但它通过将高维空间中的相似度分布映射到低维空间中,特别适合用于可视化(如将千维数据压缩到2维或3维)。
    • 特点:在视觉上能够很好地区分数据簇,但不适合做特征降维后用于训练模型。
  5. UMAP(Uniform Manifold Approximation and Projection)‍:
    • 核心思想:基于拓扑学的理论,利用随机近邻图来近似流形的结构,速度比t-SNE快,且在保持全局结构上做得更好。

4. 应用场景:流形学习在哪些地方有用?

由于它能够提取数据的内在结构,流形学习在以下领域非常有价值:

  • 数据可视化:将高维数据(如基因表达数据、图像特征)降维到2维或3维,帮助研究者直观地观察数据的聚类情况、异常点或演化轨迹。
  • 特征提取与降噪:在机器学习中,流形学习可以用来提取更具判别力的特征,或者去除数据中的噪声(因为噪声往往不符合流形结构)。
  • 异常检测:如果一个点不符合流形结构(即在低维空间中“漂离”开来),它很可能是异常点。
  • 医学和生物信息学:用于分析高维的医学影像数据或基因表达数据,寻找潜在的疾病模式或发育轨迹。

5. 局限性

虽然流形学习强大,但它也有一些挑战:

  • 计算复杂度:大多数算法需要计算数据之间的距离或邻近关系,对于“上亿级”规模的数据直接使用很困难。
  • 参数敏感:通常需要手动设置“邻居数量”(k值),这个参数对结果影响很大。
  • 可解释性:虽然它能保留结构,但降维后的坐标往往难以直接解释(不像PCA的前几个主成分有明确的方差解释)。

总结:流形学习是一种通过保留数据内在几何结构来实现降维的方法。如果你想把看不见的高维数据变成可以直观看见的低维图形,或者想提取数据的核心特征而不被噪声干扰,流形学习是非常合适的工具。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!