没有什么多模态任务是一层Transformer解决不了的!

news/2024/11/28 8:38:44/

文 | 子龙

曾几何时,多模态预训练已经不是一个新的话题,各大顶会诸多论文仿佛搭上Visual和BERT,就能成功paper+=1,VisualBERT、ViLBERT层出不穷,傻傻分不清楚......这些年NLPer在跨界上忙活的不亦乐乎,提取视觉特征后和文本词向量一同输入到万能的Transformer中,加大力度预训练,总有意想不到的SOTA。

如何在多模态的语境中更细致准确地利用Transformer强大的表达能力呢?Facebook最新的 Transformer is All You Need 也许可以给你答案。

这篇貌似标题党的文章开宗明义,针对文本+视觉的多模态任务,用好Transformer就够了,与许多前作不同,这次提出的模型一个模型可以解决多个任务:目标检测、自然语言理解、视觉问答,各个模型板块各司其职、条理清晰:视觉编码器文本编码器特征融合解码器,都是建立在多层Transformer之上,最后添加为每个任务设计的处理器,通过多任务训练,一举刷新了多个任务的榜单。

论文题目:
Transformer is All You Need: Multimodal Multitask Learning with a Unified Transformer

论文链接:
https://arxiv.org/pdf/2102.10772.pdf

文本编码器

用Transformer提取文本特征是个老生常谈的问题,从BERT石破天惊开始,纯文本领域近乎已被Transformer蚕食殆尽,所以该文也不能免俗,直接借用BERT的结构提取文本内容,区别在于,为了解决多个任务,在文本序列前添加了一个针对不同任务的参数向量 ,在最后输出隐藏状态到解码器时再去掉。

视觉编码器

本文将Transformer强大的表达能力运用到视觉特征的提取中,由于图片像素点数量巨大,首先通过基于卷积神经网络的ResNet-50提取卷积特征,极大程度上地降低了特征数量,最终得到的feature map大小为 ,然后用全联接层调整单个特征的维度到 ,再利用多层Transformer中的注意力机制提取各个feature之间的关系,由于Transformer的输入是序列,文章将 拉成一条长为 的序列,另外和文本编码器类似,同样添加了与下游任务相关的

其中 是调整维度的全联接层, 是多层Transformer编码器。

模态融合解码器

多模态的关键之一就在于怎么同时利用多个模态,在本文中是通过Transformer的解码器实现的,这个解码器首先将任务相关的query做self-attention,再将结果与文本编码器和视觉编码器的结果做cross-attention,针对单一模态的任务,选取对应编码器的输出即可,针对多模态的任务,取两个编码器输出的拼接。

任务处理器(task-specific output head)

之前多模态预训练模型往往只针对某一项任务,而本文提出的一个模型可以解决多个文本+视觉任务,与BERT可以解决多个文本任务类似,本文的模型在模态融合解码器的结果上添加为每个任务设计的处理器,这个处理器相对简单,用于从隐藏状态中提取出与特定任务相匹配的特征。

  • 目标检测:添加box_head和class_head两个前馈神经网络从最后一层隐藏状态中提取特征用来确定目标位置和预测目标类型。

  • 自然语言理解、视觉问答:通过基于全联接层的分类模型实现,将模态融合解码器结果的第一位隐藏状态输入到两层全联接层并以GeLU作为激活函数,最后计算交叉熵损失。

实验与总结

本文提出的多模态预训练模型各个板块划分明确,通过多层Transformer分别提取特征,再利用解码器机制融合特征并完成下游任务,同时借助最后一层任务相关的处理器,可以通过一个模型解决多个任务,同时也让多任务预训练成为可能,并在实验中的各个数据集上得到了论文主要进行了两部分实验:

多任务学习:

这里的多任务涉及目标检测和视觉问答两个任务,在目标检测上运用COCO和VG两个数据集,在视觉问答上运用VQAv2数据集。对比了单一任务和多任务同时训练的结果,同时对比了不同任务共用解码器的结果。从结果中我们可以看出,单纯的使用多任务训练并不一定可以提高结果,不同任务间虽然相关但是却不完全相同,这可能是任务本身差异或者数据集的特性所导致,第二行和第五行可以很明显地看出COCO上的目标检测和VQAv2的视觉问答相结合后,结果有显著的下降,然而VG上的目标检测却能够和视觉问答很好地结合,通过三个数据集上的共同训练,可以得到最高的结果。

多模态学习:

这一实验中,为了体现所提出模型能够有效解决多个多种模态的不同任务,论文作者在之前COCO、VG、VQAv2的基础上,增加了单一文本任务GLUE的几个数据集(QNLI、QQP、MNLI、SST-2)和视觉推断数据集SNLI-VE,从数据集的数量上可以看出本文模型的全能性。与本文对比的有纯文本的BERT、基于Transformer的视觉模型DETR、多模态预训练模型VisualBERT。

仔细看各个数据集上的结果,不难看出本文提出的模型其实并不能在所有数据集多上刷出SOTA,比如COCO上逊色于DETR,SNLI-VE逊色于VisualBERT,SST-2逊色于BERT,其他数据集上都有一定的提高,但是模型却胜在一个“全”字,模型的结构十分清晰明了,各个板块的作用十分明确,同时针对不同任务的处理器也对后续多模态任务富有启发性。

一起交流

想和你一起学习进步!『NewBeeNLP』目前已经建立了多个不同方向交流群(机器学习 / 深度学习 / 自然语言处理 / 搜索推荐 / 图网络 / 面试交流 / 等),关注公众号回复『入群』加入吧!

萌屋作者:子龙(Ryan)

本科毕业于北大计算机系,曾混迹于商汤和MSRA,现在是宅在家里的UCSD(Social Dead)在读PhD,主要关注多模态中的NLP和data mining,也在探索更多有意思的Topic,原本只是贵公众号的吃瓜群众,被各种有意思的推送吸引就上了贼船,希望借此沾沾小屋的灵气,paper++,早日成为有猫的程序员!

作品推荐:

1.别再搞纯文本了!多模文档理解更被时代需要!

2.Transformer哪家强?Google爸爸辨优良!

END -



FLAT——中文NER该怎么做

2021-02-19

如何兼容自训练与预训练:更高效的半监督文本分类模型

2021-02-18

斯坦福大学——人工智能本科4年课程清单

2021-02-13

微软亚洲研究院周明 | 从语言智能到代码智能

2021-02-16


http://www.ppmy.cn/news/853805.html

相关文章

Spring Boot 配置 HTTPS 的详细流程

大家好,周末空下来,再学习一些小知识吧! 准备把面试的项目上线,因为是小程序要求必须https,记录下完整流程和走过的坑 第一步 申请SSL证书 这里选了免费的 https://freessl.cn/ ,大家可以根据自己需求进行。…

学生HTML个人网页作业作品 基于HTML+CSS+JavaScript明星个人主页(15页)

🎉精彩专栏推荐👇🏻👇🏻👇🏻 ✍️ 作者简介: 一个热爱把逻辑思维转变为代码的技术博主 💂 作者主页: 【主页——🚀获取更多优质源码】 🎓 web前端期末大作业…

2018亚洲消费电子展再迎重量级嘉宾:联想集团、中国初创经济专家将发表主题演讲

亚洲年度科技盛事开幕在即,集中展示5G互联、人工智能、增强现实/虚拟现实、汽车技术等产业科技创新 美国弗吉尼亚州阿灵顿市--(美国商业资讯)--美国消费技术协会(CTA)今日宣布,2018亚洲消费电子展再迎重要嘉宾,来自联想集团的高层领导&…

[pyqt5]QListView增删改查和添加右键菜单

将一批数据list加入到QListView slm QStringListModel() # 创建modelslm.setStringList([111, 222, 333]) # 将数据设置到modelself.listView.setModel(slm) 设置某行被选中,这里以第一行选中为例子 model_index slm.index(0, 0)self.listView.setCurrentIndex…

ModelWhale 助力遥感领域科研的数据开放、跨学科协同及产学研一体

2023年3月,科技部会同自然科学基金委启动“人工智能驱动的科学研究(AI for Science)”专项部署工作,布局“人工智能驱动的科学研究”前沿科技研发体系。对此,中国科学院院士、北京大学国际机器学习研究中心主任鄂维南认…

儿童产品CPC认证是什么,CPSC测试标准介绍

您是否打算将新的儿童产品进口到美国?想象一下,您努力寻找合适的制造商,采取了所有步骤来确保质量控制,工厂终于发货了您的订单。你应该很高兴,但你没有?因为您刚刚收到通知,通知您您的产品在海…

FC协议监控卡(FC协议分析仪),FC Monitor

PCIe 接口/FC-AE 监控记录分析卡 完全遵守 FC/FC-AE 协议; 实时监控功能:提供 API,用户可以指定感兴趣的 消息,实时捕获,并调用用户处理例程; 线路速率 1.0625Gb/s、2.125Gb/s、4.25Gb/s(可切换)&#xff…

常见的国外认证有哪些

这里给大家举几个比较常用的认证和证书,希望能够为大家今后的运营带来一些帮助。 1、FDA认证 全名叫“美国食品和药物管理局认证”,美国食品和药物管理局(Food and DrugAdministration,FDA)专门负责食品与药品管理,FDA…