F.interpolate函数

ops/2025/1/8 0:11:29/

F.interpolate 是 PyTorch 中用于对张量(通常是图像数据)进行插值操作的函数,常用于调整张量的大小,例如改变图像的分辨率。它支持多种插值方法,包括最近邻插值、双线性插值和三次插值等。

语法

torch.nn.functional.interpolate(input, size=None, scale_factor=None, mode='nearest', align_corners=None)

参数

  1. input:

    • 输入的张量,形状通常为 (N, C, H, W)(N, C, D, H, W)(批次、通道数、高度、宽度 或深度、高度、宽度)。
  2. size:

    • 调整后张量的目标大小,可以是整数元组,例如 (height, width)
    • 优先级高于 scale_factor
  3. scale_factor:

    • 用于调整大小的比例因子,可以是浮点数或元组(对于高度和宽度分别指定比例)。
    • 如果指定了 size,此参数会被忽略。
  4. mode:

    • 指定插值方法,常用选项:
      • 'nearest':最近邻插值。
      • 'linear':线性插值(仅适用于 3D 输入)。
      • 'bilinear':双线性插值(常用于 2D 图像)。
      • 'bicubic':双三次插值(适用于 2D 图像)。
      • 'trilinear':三线性插值(适用于 3D 输入)。
      • 'area':区域插值,用于下采样。
  5. align_corners:

    • 仅在 mode'linear', 'bilinear', 'bicubic''trilinear' 时使用。
    • 如果为 True,则输入和输出的角像素对齐。

返回值

调整大小后的张量。


示例代码

1. 将图像从 640x640 调整为 832x832
import torch
import torch.nn.functional as F# 创建一个随机图像张量,形状为 (batch_size=1, channels=3, height=640, width=640)
img = torch.randn(1, 3, 640, 640)# 使用 F.interpolate 调整分辨率为 832x832
resized_img = F.interpolate(img, size=(832, 832), mode='bilinear', align_corners=False)print("Original shape:", img.shape)
print("Resized shape:", resized_img.shape)
2. 使用比例调整图像大小
# 使用 scale_factor=1.3 对图像尺寸放大 1.3 倍
scaled_img = F.interpolate(img, scale_factor=1.3, mode='bilinear', align_corners=False)print("Scaled shape:", scaled_img.shape)
3. 下采样为一半大小
# 使用 scale_factor=0.5 对图像尺寸缩小 50%
downsampled_img = F.interpolate(img, scale_factor=0.5, mode='area')print("Downsampled shape:", downsampled_img.shape)

注意事项

  1. align_corners 的影响
    align_corners=True 时,插值会在输入和输出张量的角像素之间进行对齐;否则,计算比例时不对齐角像素。通常推荐 align_corners=False,避免形变或偏移。

  2. 选择插值方法

    • 双线性插值(bilinear)和双三次插值(bicubic)通常适用于图像重采样,生成更平滑的结果。
    • 最近邻插值(nearest)速度快,但结果不够平滑。
  3. 处理多通道输入
    F.interpolate 可直接处理多通道(如 RGB、IR 数据)的张量,不需要额外操作。


http://www.ppmy.cn/ops/147885.html

相关文章

Java List 源码解析——从基础到深度剖析

Java List 源码解析——从基础到深度剖析 Java 集合框架中的 List 接口是开发中最常用的组件之一。无论是对数据的有序管理,还是对元素的高效访问,List 都发挥着重要作用。在这篇博客中,我们将从 List 的设计出发,逐步深入解析其…

音视频入门基础:MPEG2-PS专题(4)——FFmpeg源码中,判断某文件是否为PS文件的实现

一、引言 通过FFmpeg命令: ./ffmpeg -i XXX.ps 可以判断出某个文件是否为PS文件: 所以FFmpeg是怎样判断出某个文件是否为PS文件呢?它内部其实是通过mpegps_probe函数来判断的。从《FFmpeg源码:av_probe_input_format3函数和AVI…

《解析 MXNet 的 C++版本在分布式训练中的机遇与挑战》

在深度学习的广袤领域中,分布式训练已成为应对大规模数据和复杂模型训练需求的关键手段。MXNet 作为一款备受瞩目的深度学习框架,其 C版本在分布式训练方面展现出独特的魅力,同时也面临着诸多挑战。深入探究这些优势与挑战,对于推…

django vue3实现大文件分段续传(断点续传)

前端环境准备及目录结构: npm create vue 并取名为big-file-upload-fontend 通过 npm i 安装以下内容"dependencies": {"axios": "^1.7.9","element-plus": "^2.9.1","js-sha256": "^0.11.0&quo…

Linux(Centos 7.6)命令详解:ls

1.命令作用 列出目录内容(list directory contents) 2.命令语法 Usage: ls [OPTION]... [FILE]... 3.参数详解 OPTION: -l,long list 使用长列表格式-a,all 不忽略.开头的条目(打印所有条目,包括.开头的隐藏条目&#xff09…

Unity3D仿星露谷物语开发13之角色感知道具

1、目标 在Scene中创建道具,角色靠近道具能够自动获取道具的信息。 ps:unity核心用法: SerializeField:序列化某一个字段Create -> Prefab Variant得到衍生预制体。SingletonMonobehaviour:单例模式类&#xff0…

【NLP高频面题 - Transformer篇】Transformer的输入中为什么要添加位置编码?

Transformer的输入中为什么要添加位置编码? 重要性:★★★ Transformer 将句子中的所有词并行地输入到神经网络中。并行输入有助于缩短训练时间,同时有利于学习长期依赖。不过,并行地将词送入 Transformer,却不保留词…

基于海思soc的智能产品开发(camera sensor的两种接口)

【 声明:版权所有,欢迎转载,请勿用于商业用途。 联系信箱:feixiaoxing 163.com】 对于嵌入式开发设备来说,除了图像显示,图像输入也是很重要的一部分。说到图像输入,就不得不提到camera。目前ca…