浅谈AI落地之-关于数据增广的思考

server/2025/3/19 3:06:03/

 前言

曾在游戏世界挥洒创意,也曾在前端和后端的浪潮间穿梭,如今,而立的我仰望AI的璀璨星空,心潮澎湃,步履不停!愿你我皆乘风破浪,逐梦星辰!

数据增广中的mixup(Mixup Augmentation)

简单的来说,Mixup 是一种 数据增强(Data Augmentation) 技术,通过线性插值混合两张图片及其标签,使模型学习到更平滑的决策边界,提高泛化能力。

1. 具体流程

  • 随机选取两张图片 x1,x2​ 及其标签 y1,y2​
  • 使用 Mixup 公式计算新的图像和标签: x′=λx1+(1−λ)x,​ y′=λy1+(1−λ)y,​ 其中,λ是从 Beta 分布中采样的权重: λ∼Beta(α,α)
  • 通常 α\alphaα 设为 0.2 ~ 0.4

2. 示例(输入 & 输出)

输入

两张 32×32 的图片(假设是 CIFAR-10 数据集),分别属于「猫(类别 3)」和「狗(类别 5)」。

  • x1x_1x1​:猫图片
  • y1=[0,0,0,1,0,0,0,0,0,0]
  • x2x_2x2​:狗图片
  • y2=[0,0,0,0,0,1,0,0,0,0]
  • 设 λ=0.7
Mixup 计算

1. 计算新的图片

x′=0.7×x1+0.3×x2

新图片 x′ 是70% 猫 + 30% 狗 的混合图像。

2. 计算新的标签

y′=0.7×y1+0.3×y2,y′=[0,0,0,0.7,0,0.3,0,0,0,0]

新的标签表示「70% 猫 + 30% 狗」。

输出
    • 新的混合图片(视觉上类似半透明的猫+狗)。
    • 新的标签:猫 70%,狗 30%(软标签)。

3. Mixup 的 Python 代码

import numpy as np
import torchdef mixup_data(x1, y1, x2, y2, alpha=0.4):"""Mixup 数据增强"""lam = np.random.beta(alpha, alpha)  # 采样 λx_mixed = lam * x1 + (1 - lam) * x2y_mixed = lam * y1 + (1 - lam) * y2return x_mixed, y_mixed# 假设 x1, x2 是两张图片(PyTorch Tensor),y1, y2 是 one-hot 标签
x1 = torch.rand(3, 32, 32)  # 假设 RGB 图片
x2 = torch.rand(3, 32, 32)
y1 = torch.tensor([0, 0, 0, 1, 0, 0, 0, 0, 0, 0])  # 类别 3(猫)
y2 = torch.tensor([0, 0, 0, 0, 0, 1, 0, 0, 0, 0])  # 类别 5(狗)x_mixed, y_mixed = mixup_data(x1, y1, x2, y2)print(y_mixed) 


http://www.ppmy.cn/server/176121.html

相关文章

神策数据接入 DeepSeek,AI 赋能数据分析与智能运营

在 AI 技术迅猛发展的浪潮下,神策数据正在加速推进人工智能在数据分析和智能运营领域的深度应用。近日,神策数据宣布全面接入 DeepSeek,为企业客户带来更加智能化、高效的数据分析与智能运营服务。这一举措展现了神策数据在人工智能方向的探索…

JavaScript如何做类型转换

一、类型转换 二、补充 console.log(1 "2" "2"); // 122 console.log(1 "2" "2"); // 32 console.log(1 -"1" "2"); // 02 console.log("1" "1" "2"); // 112 consol…

DeepSeek linux服务器(CentOS)部署命令笔记

Linux(CentOS)FinalShellOllama远程访问,本地部署deepseek 自备CentOS服务器,并且已经使用FinalShell连接到服务器 一、准备工作 1.更新服务器 apt-get update-y 2.下载Ollama curl -fsSL https://ollama.com/install.sh | …

Git和GitHub基础教学

文章目录 1. 前言2. 历史3. 下载安装Git3.1 下载Git3.2 安装Git3.3 验证安装是否成功 4. 配置Git5. Git基础使用5.1 通过Git Bash使用5.1.1 创建一个新的仓库。5.1.1.1 克隆别人的仓库5.1.1.2 自己创建一个本地仓库 5.1.2 管理存档 5.2 通过Visual Studio Code使用 6. Git完成远…

【大语言模型_5】xinference部署embedding模型和rerank模型

一、安装xinference pip install xinference 二、启动xinference ./xinference-local --host0.0.0.0 --port5544 三、注册本地模型 1、注册embedding模型 curl -X POST "http://localhost:5544/v1/models" \ -H "Content-Type: application/json" \…

apk反编译Apktool.jar

Apktool 快速使用教程 先去下载:apktool 1. 准备工作 将 apktool_2.11.1.jar 和 apk.apk放在同一目录,例如F:\JLM。 2. 反编译 APK 在 F:\JLM\ 目录下运行: F:\JLM>java -jar apktool_2.11.1.jar d apk.apk -o test执行过程&#xf…

低空经济腾飞:无人机送货、空中通勤,未来已来

近年来,低空经济逐渐成为社会关注的焦点。从无人机送货到“空中的士”,再到飞行培训的火热进行,低空经济正迎来前所未有的发展机遇。随着技术进步和政策支持,这一曾经看似遥远的未来场景,正逐步变为现实。 低空经济如何…

每日定投40刀BTC(9)20250312 - 20250315

定投截图 区块链相关新闻 BTC价格一度跌破8万美元 3月14日,BTC价格盘中跌破8万美元,最低报79,954.60美元,日内下跌1.34%,市场情绪一度转为谨慎 BTC价格波动背后的原因 经济环境变化、市场情绪波动以及政策监管动态是导致BTC价…