什么是监督学习(Supervised Learning)

监督学习Supervised Learning‍ 是机器学习中最基础、最常见的一种学习范式。顾名思义,它是一种“在监督(指导)‍下进行学习”的过程。

在监督学习中,我们拥有一个包含输入(Features)和对应正确输出(Labels)的数据集(通常称为训练集)。机器学习模型通过学习这些输入与输出之间的映射关系,试图找出一种通用的规则,使其在遇到新数据时,能够预测出正确的输出

以下是对监督学习的详细拆解与介绍:

1. 核心概念

  • 训练集(Training Set‍:由已知答案的数据组成。每条数据都有一个输入(如图像)和一个标签(如“猫”或“狗”)。
  • 标签(Label)‍:模型需要预测的目标。对于分类任务,它是一个离散的类别(如“spam”或“not spam”);对于回归任务,它是一个连续的数值(如房价)。
  • 学习目标:找出一个函数 ,使得  能够将输入  映射为正确的输出 。

2. 主要任务类型

监督学习主要分为两大类:

任务类型 目标 典型应用 例子
分类(Classification) 将输入划分到离散的类别中 垃圾邮件过滤、人脸识别、疾病诊断 给定一张图片,判断是猫还是狗
回归(Regression) 预测连续数值 房价预测、气温预测、股票走势分析 根据房屋面积、位置等特征,预测房价

3. 工作流

监督学习的标准流程通常包含以下几个步骤:

  1. 收集与标注数据
    • 收集原始数据(如图片、文本、传感器数据)。
    • 由人工或规则为每条数据打上正确的标签。这一步是监督学习最耗时、成本最高的部分。
  2. 模型选择
  3. 训练(Training)‍:
    • 将训练集输入模型,模型会根据数据调整内部参数(如神经网络的权重),目的是最小化预测值与真实标签之间的误差(Loss)。
  4. 验证与调优(Validation)‍:
    • 使用验证集评估模型性能,调整模型结构或参数(如学习率、正则化系数)。
  5. 测试(Testing)‍:
    • 使用未见过的测试集评估模型的泛化能力。如果表现良好,即可部署到实际场景中。

4. 与其他学习范式的对比

5. 优势与局限

  • 优势:模型精度通常较高,直观易懂,能够解决实际中明确有答案的问题。
  • 局限:依赖大量高质量标注数据;如果标注有误,模型也会学错;难以解决“未知领域”的问题。
来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!