AI学习第二天--监督学习 半监督学习 无监督学习

embedded/2025/3/19 17:00:18/

目录

1. 监督学习(Supervised Learning)

比喻:

技术细节:

形象例子:

2. 无监督学习(Unsupervised Learning)

比喻:

技术细节:

形象例子:

3. 半监督学习(Semi-Supervised Learning)

比喻:

技术细节:

形象例子:

4. 三者的对比与选择

表格总结:

5. 实际案例对比

案例:电商平台用户分群

6. 关键逻辑总结


1. 监督学习(Supervised Learning)

比喻

老师带着学生做题,每道题都有标准答案,学生通过练习学会解题方法。
核心有标签的数据(答案已知)。


技术细节
  • 数据形式:输入(X)+ 标签(Y)。
    • 例如:
      • 图像分类:图片(X) + 类别标签(Y,如“猫”或“狗”)。
      • 房价预测:房屋面积、位置(X) + 房价(Y)。
  • 目标:模型学习输入到标签的映射关系(如 f(X)=Yf(X)=Y)。
  • 常见算法线性回归、决策树、神经网络等。

形象例子

场景:学生学数学。

  1. 老师
    • 给出题目和答案(如“3+5=?” → 答案“8”)。
    • 学生通过大量练习(如1000道题+答案)掌握加法规律。
  2. 模型
    • 输入“3+5”,输出“8”。
    • 监督学习的关键:每一步都有明确的“正确答案”指导模型学习。

2. 无监督学习(Unsupervised Learning)

比喻

学生自己探索一堆物品,没有老师指导,只能通过观察找出物品的共同特征或分组
核心无标签的数据(没有答案,需自行发现模式)。


技术细节
  • 数据形式:仅有输入(X),无标签(Y)。
    • 例如:
      • 客户数据(年龄、收入、消费习惯) → 分群(如高收入用户群、低频购物群)。
      • 文本语料库 → 聚类为不同主题。
  • 目标:模型发现数据中的内在结构(如分组、降维)。
  • 常见算法K-Means聚类、PCA降维、自编码器等。

形象例子

场景:学生整理图书馆的书。

  1. 学生
    • 看到一堆书,但没有分类标签(如“科幻”“历史”)。
    • 通过观察书的内容、作者、关键词,将书分为“小说”“科技”“历史”等类别。
  2. 模型
    • 输入客户数据,输出“客户A属于高价值用户群”。
    • 无监督学习的关键:没有答案,模型自己“创造”规则。

3. 半监督学习(Semi-Supervised Learning)

比喻

学生大部分时间自己探索,但偶尔老师给出几个题目的答案,学生结合少量答案和大量无标签数据学习。
核心少量有标签数据 + 大量无标签数据


技术细节
  • 数据形式
    • 少量有标签数据(X, Y) + 大量无标签数据(仅X)。
    • 例如:
      • 医疗数据:100个标注的X光片(有疾病标签) + 10,000个未标注的X光片。
  • 目标:利用少量标签和大量无标签数据提升模型性能。
  • 常见方法
    • 标签传播:用少量标签数据推测无标签数据的标签。
    • 自训练:模型先用有标签数据训练,再预测无标签数据,将高置信度预测结果作为新标签。

形象例子

场景:学生学画画,但只有少量带标签的画作。

  1. 老师
    • 给出10张画作并标注“风景”“人物”等标签。
    • 其他1000张画作无标签。
  2. 学生
    • 先用10张带标签的画学习特征(如“人物画有五官”)。
    • 再观察无标签画作,推测它们的类别(如“这张画有山和树 → 可能是风景”)。
  3. 模型
    • 输入新画作,输出“风景”或“人物”。
    • 半监督学习的关键:用少量标签引导,大量无标签数据扩展知识。

4. 三者的对比与选择

表格总结
类型数据形式目标适用场景优缺点
监督学习X(输入) + Y(标签)学习输入到标签的映射分类、回归(如图像识别、房价预测)需大量标注数据,但模型性能通常更好。
无监督学习X(输入)无标签发现数据内在结构聚类、降维(如客户分群、文本主题分析)不需要标注数据,但结果可能需要人工解释。
半监督学习少量(X,Y) + 大量X结合有/无标签提升性能标注成本高但数据量大的场景(如医疗、图像)兼顾监督和无监督的优点,但实现复杂,需平衡两者。

5. 实际案例对比

案例:电商平台用户分群
  • 监督学习
    • 数据:用户行为数据(点击、购买) + 标签(“高价值用户”或“低价值用户”)。
    • 模型:训练分类器,预测新用户是否是高价值用户。
  • 无监督学习
    • 数据:用户行为数据(无标签)。
    • 模型:聚类为“高活跃用户群”“价格敏感用户群”等。
  • 半监督学习
    • 数据:100个标注用户(高/低价值) + 10,000个无标签用户。
    • 模型:用少量标签引导聚类,提升用户分群的准确性。

6. 关键逻辑总结

  • 监督学习有答案,学得准,但成本高
  • 无监督学习无答案,靠探索,成本低但需解释
  • 半监督学习少量答案+大量数据,性价比高,但需平衡

用一句话概括:
“监督学习是‘有答案的考试’,无监督学习是‘无答案的探险’,半监督学习是‘带着少量答案去探险’。”


http://www.ppmy.cn/embedded/173905.html

相关文章

hbuiderx的sass编译器报dart-sass等错误的解决方法

HBuilderX 4.5起,vue2的sass编译器由node-sass改为dart-sass。node-sass是已经被淘汰的不再维护的库,且不支持arm cpu。 node-sass有些过期语法在dart-sass上报错导致无法编译。 虽然默认为dart-sass,但HBuilderX 4.56版也提供了选项&#xf…

HTML 新手入门:从零基础到搭建第一个静态页面(一)

开启 HTML 学习之旅 在互联网的广袤世界中,网页是我们与信息交互的主要窗口。而 HTML,作为构建网页的基石,就像是搭建房屋的砖块,是网页开发中不可或缺的基础。无论你是对网页开发充满好奇的小白,还是渴望系统学习前端…

华为云认证 - 云学堂「集证」有礼

华为云最近又出了一个新活动,我看了一下,奖励比上次的要好很多,本来不想搞的,这下不得不考虑一下了~ 还是一样,得先报名才能参与活动!特别提醒一下,企业账号是不能参加这次活动的,大…

【区块链+乡村振兴】国经安农信链服务平台 | FISCO BCOS 应用案例

传统农业交易市场面临着信息不对称、追溯体系不健全、信任缺失等多重挑战。而区块链技术的应用, 能够实现农产品从生产源头到消费者手中的全链条信息记录与追溯, 确保数据的真实性和透明度, 有效打击假冒伪劣产品, 增强消费者信任…

【ProjectDiscovery 生态中核心工具 Subfinder、Httpx、Katana 和 Nuclei 的基础使用教程】

ProjectDiscovery 生态中核心工具 Subfinder、Httpx、Katana 和 Nuclei 的基础使用教程 一、Subfinder:子域名发现工具安装基础使用 二、Httpx:HTTP 探测与指纹识别安装基础使用 三、Katana:网络爬虫工具安装基础使用 四、Nuclei:…

【新能源汽车“心脏”赋能:三电系统研发、测试与应用匹配的恒压恒流源技术秘籍】

新能源汽车“心脏”赋能:三电系统研发、测试与应用匹配的恒压恒流源技术秘籍 在新能源汽车蓬勃发展的浪潮中,三电系统(电池、电机、电控)无疑是其核心驱动力。而恒压源与恒流源,作为电源管理的关键要素,在…

2023华东师范大学计算机复试上机真题

2023华东师范大学计算机复试上机真题 2022华东师范大学计算机复试上机真题 2021华东师范大学计算机复试上机真题 2023华东师范大学计算机复试机试真题 2022华东师范大学计算机复试机试真题 2021华东师范大学计算机复试机试真题 在线评测:传送门:pgcode.…

基于x11vnc的ubuntu远程桌面

1、安装VNC服务 sudo apt install x11vnc -y2、创建连接密码 sudo x11vnc -storepasswd3、安装lightdm服务 x11vnc 在 默认的 GDM3 中不起作用,因此需要使用 lightdm 桌面管理环境 sudo apt install lightdm -y切换至lightdm,上一步已经切换则跳过该…