计算机视觉cv模型最新进展速看:

news/2025/2/10 9:32:33/

华为诺亚实验室等研究者提出动态分辨率网络 DRNet

深度卷积神经网络通畅采用精细的设计,有着大量的可学习参数,在视觉任务上实现很高精
确度要求。为了降低将网络部署在移动端成本较高的问题,近来发掘在预定义架构上的冗余
已经取得了巨大的成果,但对于 CNN 输入图像清晰度的冗余问题还没有被完全研究过,即当
前输入图像的清晰度都是固定的。10 月,华为诺亚实验室、中国科学院大学等机构研究者提
出一种新型的视觉神经网络 DRNet(Dynamic Resolution Network)。基于每个输入样本,
该网络可以动态地决定输入图像的清晰度。该网络中设置了一个清晰度预测器,其计算成本
几乎可以忽略,能够和整个网络共同进行优化。该预测器可以对图像学到其需要的最小清晰
度,甚至能够实现超过过去识别准确率的性能。实验结果显示,DRNet 可以嵌入到任何成熟
的网络架构中,实现显著的计算复杂度降低。例如,DR-ResNet-50 在实现同样性能表现的
前提下可以降低 34%的计算,相比 ResNet-50 在 ImageNet 上提升 1.4 个点的性能同时能够
降低 10%的计算。

 智源、清华研究者提出时空自适应动态神经网络 AdaFocus

10 月,来自北京智源人工智能研究院和清华大学的研究者提出高效视频分析框架 AdaFocus。
该方法突破了传统深度神经网络的静态推理范式,实现了在时间、空间两个维度自适应定位
与目标任务相关性最强的视频帧和关键区域,有效降低了基于深度视频分析方法的计算冗余
性。在 Sth-Sth V2、ActivityNet 等主流视频处理数据集上,AdaFocus 可将模型总体推理AI Frontiers Report 科研发展情况效率相较现有方法提高 2-3 倍。该方法在边缘计算、视频监控、视频推荐等场景有较大的应用前景,也为设计低延迟、低能耗的深度学习基础模型提供了启发性的思路。

https://openaccess.thecvf.com/content/ICCV2021/papers/Wang_Adaptive_Focus_for_Efficient_ Video_Recognition_ICCV_2021_paper.pdf

 谷歌研究者提出多任务训练策略 TAG

多任务学习能够让模型通过在一个任务上学习信息,提升在其他任务上训练的性能。然而,
简单地让模型在所有任务上一块训练可能导致模型性能的下降,且完全搜索所有的任务组合
的成本很高。因此,高效地找到对于训练有提升的任务是一个重要的研究问题。10 月,谷歌
的研究者提出了名为 TAG(Task Affinity Groupings)的多任务训练策略,能够通过一次
运行训练所有任务,并量化单个任务的梯度对于其他任务损失的影响。通过在视觉任务上的
实验,研究者发现这一方法相比单纯同时训练所有任务降低了 10%的测试损失,并且比当前
最佳的任务分组策略快 11.6 倍。

以色列希伯来大学等提出文生高清图模型 StyleCLIP 

3 月,以色列希伯来大学、Adobe 研究院等将 StyleGAN 和 CLIP 模型结合,提出了一种能
够根据文本提示生成高清晰度图像的模型,名为 StyleCLIP。研究者认为,StyleCLIP 能够
结合预训练模型学习到的语义知识,加上生成对抗网络的图像生成能力,能够创造出更逼真
的图像,在实际应用中有一定的优势。

 智源、清华等研究者提出文生图模型 CogView

5 月,智源研究院、清华大学、阿里达摩院的研究者发布了 CogView 文生图模型论文,其将
VQ-VAE 和 40 亿参数的 Transformer 模型结合,通过在风格学习、超高清图像生成、文- 图排序和时尚设计等多个下游任务上进行微调,并采用了消除 NaN 损失等稳定预训练的方法。
实验结果显示,CogView 在模糊化后的 MS COCO dataset 数据集上取得了最高的 FID 结果,
高于以往的 GAN 和 DALL·E。

 

Facebook 研究者提出多任务多模态统一模型 UniT 

8 月,Facebook 研究团队提出了名为 UniT 的多任务多模态统一 Transformer 模型,其基
于统一的 Transformer Encoder-Decoder 架构,能够同时解决视觉、多模态、语言等领域
中的一系列任务,包括目标检测、视觉-文本推理、自然语言理解等。论文表示,该模型在 7
个任务上都有较强的性能。

清华等研究者提出跨模态提示学习模型 CPT 

9 月,清华和新加坡国立大学的研究者提出了跨模态提示学习模型 CPT,其利用颜色对跨模
态预训练模型进行基于提示学习的微调,在视觉定位、场景图生成任务的少次学习场景下较
基线模型取得显著提升。

 微软亚洲研究院、北大研究者提出涵盖三种模态数据的预训练模型 NÜWA(女娲)

11 月,微软亚洲研究院、北大研究者提出统一多模态预训练模型 NÜWA。该模型采用 3D
Transformer 架构,能够生成视觉(图像或视频)信息。通过将该模型在 8 个下游任务上进
行试验,女娲模型在文生图、文生视频、视频预测等任务上实现最佳性能。

 


http://www.ppmy.cn/news/105522.html

相关文章

无需租云服务器,Linux本地搭建web服务,并内网穿透发布公网访问

文章目录 前言1. 本地搭建web站点2. 测试局域网访问3. 公开本地web网站3.1 安装cpolar内网穿透3.2 创建http隧道,指向本地80端口3.3 配置后台服务 4. 配置固定二级子域名5. 测试使用固定二级子域名访问本地web站点 转载自cpolar文章:Linux CentOS本地搭建…

想知道如何给游戏视频配音?有三个好方法教给你

现在越来越多的小伙伴会在闲暇之余打打游戏,也会观看一些游戏视频,其中不少游戏视频都有配音。游戏视频配音是一项有趣而富有创造力的任务,它可以让你为游戏画面注入声音,增强观众的体验。无论你是一个游戏爱好者还是一个内容创作…

重磅发布!面向装备制造业服务化转型白皮书(私信获取)

《面向装备制造业服务化转型白皮书》 关于白皮书 《面向装备制造业服务化转型白皮书》通过调研160余家装备制造企业的服务化路径及模式,研讨支持企业开展服务型制造的系统化方案,希望为装备制造业服务化转型,探索切实有效的路径以供参考。 …

教育最大的失败,是普通家庭富养孩子

作者| Mr.K 编辑| Emma 来源| 技术领导力(ID:jishulingdaoli) 著名教育家马卡连柯曾说:“一切都给孩子,牺牲一切,甚至牺牲自己的幸福,这是父母给孩子最可怕的礼物。”前些天刷到一个挺扎心的视频,不知道算…

怎么样判断一个公司值不值得加入

(点击即可收听) 怎么样判断一个公司值不值得加入 对于刚毕业,初入职场的同学,对于人生当中的第一份工作,真的挺重要的 虽然第一份工作决定不了什么,但是第一份好的工作,对职业生涯起很大的作用 人生中遇到一位好的导师,工作当中,那些愿意指导,循循教导的…

软考A计划-试题模拟含答案解析-卷十一

点击跳转专栏>Unity3D特效百例点击跳转专栏>案例项目实战源码点击跳转专栏>游戏脚本-辅助自动化点击跳转专栏>Android控件全解手册点击跳转专栏>Scratch编程案例 👉关于作者 专注于Android/Unity和各种游戏开发技巧,以及各种资源分享&am…

安装 Nginx 修改默认端口

用远程工具连接我们上次购买的机器,这里我要介绍一个知识点,博主使用的工具是 MobaXterm,这个工具有一个多操作的功能,在下图的位置可以开启多操作,然后连接你的服务器机子即可: 首先我们将机子里面的依赖源…

拼多多继续ALL IN

2023年注定是中国电商不平凡的一年。 随着网购用户数量见顶,经济形势进入新常态,电商平台已经来到了短兵相接的肉搏战阶段。 此刻的618大促,硝烟弥漫,刀光剑影,电商“决战”似乎是迫在眉睫。对各个平台来说&#xff0c…