本文详解机器学习无监督学习,阐述在无标签数据下模型自动挖掘结构与规律的核心思想。涵盖聚类、降维、异常检测及生成模型等关键任务与算法。对比监督学习,分析其优缺点及应用场景,助您快速掌握 AI 智能基础。
在快速了解机器学习中介绍了机器学习的分类,其中就包含无监督学习,下面将简单说说无监督学习(Unsupervised Learning)。
无监督学习就是在没有人工指导的情况下,让模型自动从数据中挖掘结构、聚类、特征和分布,是实现真正智能的关键基础。
总结起来说:
- 输入:只有原始数据,没有人工标注的标签(y 不存在),即没有正确答案
- 目标:让模型自己发现数据里的规律、结构、分布
与监督学习比较:
- 监督学习:有答案 → 学习“映射”
- 无监督学习:没答案 → 学习“结构”或“规律”
简单来说,无监督学习是让机器自己看懂数据,而不是人教它怎么看。
无监督学习的核心思想
注意,让无监督学习的数据不是乱给的,也有一些基本假设:
- 数据不是随机乱分布的,内部一定有模式、类别、关系、结构。
无监督学习要做的事:
- 把相似的聚在一起(聚类)
- 把高维数据变低维(降维)
- 发现特征之间的关系
- 学习数据本身的分布
无监督学习的两大核心任务
聚类(Clustering)—— 最典型任务
把数据自动分成若干组,组内的数据相似、组间不同。
常见聚类算法有:
- K-Means(最经典、最常用)
- DBSCAN(密度聚类,可识别不规则形状)
- 层次聚类(Agglomerative Clustering)
- GMM 高斯混合模型
聚类主要应用于:
- 用户分群、客户分层
- 图片分类、图像检索
- 异常检测
- 文本聚类、话题发现
降维(Dimensionality Reduction)
把高维数据压缩到低维,同时保留主要信息,如将 1536 维降低到 768 维。
为什么要降维?维度太高 → 计算慢、过拟合、难可视化,例如计算 1536 维和 768 维,肯定是 768 维更节约资源。
注意:无监督降维可以自动提取关键特征。降维≠直接删除无效维度,而是“重组”—— 把所有原始维度的信息,压缩到更少的新维度里,新维度不是原维度的子集,而是所有原维度的“加权组合”。
下面是一个 PCA 降维例子:
假设你有一组数据,每个样本有 2 个原始维度:身高(cm)和体重(kg),这两个维度高度相关(身高高的人体重通常大)。
- 若按 “删无效维度” 思路:可能删掉其中一个,但会丢失一半信息;
- 若用 PCA 降维:会生成 1 个新维度「身体尺寸综合特征」,这个新维度 = 0.8× 身高 + 0.2× 体重(权重由数据规律自动算)。
这个新维度既保留了 “身高 + 体重” 的核心信息(比如区分胖瘦 / 高矮),又把 2 维降到 1 维,且没有任何原始维度被直接删除—— 这才是无监督降维“自动提取关键特征” 的核心。
常见的降维算法:
- PCA(主成分分析,最经典)
- t-SNE(用于可视化)
- AutoEncoder(自编码器,深度学习版降维)
降维主要应用于:
AI广告位
无监督学习的其他重要方向
异常检测(Anomaly Detection)
用于找出和大多数数据不一样的样本。例如:
关联规则挖掘(Association Rule Mining)
用于发现数据中频繁出现的组合关系。
例如经典例子:啤酒与尿布 —— 20 世纪 90 年代,沃尔玛分析海量 POS 购物小票数据。发现啤酒与尿布经常被同时购买,尤其在周末晚上。这是因为年轻父亲被妻子派去买尿布,顺便买啤酒看球。如果将啤酒与尿布摆在一起。你会发现两类商品销量显著提升。
常用算法:
生成式模型(Generative Models)
用于学习数据分布,生成新的、逼真的数据。
- GAN,即生成对抗网络(Generative Adversarial Networks),它是什么呢?GAN 是一种在深度学习领域极具创新性和影响力的模型架构。由伊恩・古德费洛(Ian Goodfellow)等人于 2014 年提出,这种模型主要由两个部分组成:生成器(Generator)和判别器(Discriminator)。生成器的任务是根据输入的随机噪声数据,生成类似于真实数据的样本,比如生成逼真的图像、音频等;而判别器则负责判断接收到的数据是来自真实数据集还是由生成器生成的。这两者相互对抗又相互促进,在不断的博弈过程中,生成器生成的数据越来越逼真,判别器的鉴别能力也越来越强。
- VAE,即变分自编码器(Variational Autoencoder),是一类在机器学习和深度学习领域中极为重要的生成模型。它由编码器(Encoder)和解码器(Decoder)两大部分构成。编码器的作用是将输入数据映射到潜在空间(Latent Space),并在这个过程中学习数据的分布特征,把原始数据表示为低维的潜在向量。解码器则是根据这些潜在向量重构出与原始输入相似的数据。
- 扩散模型(Stable Diffusion 等)
- 大模型预训练本质也是无监督 / 自监督学习
无监督学习的优点&缺点
无监督学习的优点:
- 不需要标注数据,成本极低
- 能发现人类不知道的隐藏模式,规律
- 适用范围极广,任何数据都能跑
- 是通用人工智能的核心方向
- 是深度学习预训练的基础(BERT、GPT 都靠它)
无监督学习的缺点:
- 结果难以评价:没有标准答案,不知道好不好
- 不稳定,对初始化、参数敏感
- 不如监督学习任务精准
- 结果需要人工解释
我们常常听人说,人们因工作过度而垮下来,但是实际上十有八九是因为饱受担忧或焦虑的折磨。 —— 卢伯克.J.