7 Papers | 超越GPT 3.5的小模型;对ChatGPT摸底考试

news/2025/2/6 4:32:10/

关注并星标

从此不迷路

计算机视觉研究院

ef547aa23be0d597df149314c7e736ea.gif

4ee7503e31854b22af0ec4095d8457ef.gif

91e75fa7a25e8c2fb9b8eca4cbcabd3e.png

公众号IDComputerVisionGzq

学习群扫码在主页获取加入方式

计算机视觉研究院专栏

作者:Edison_G

本周论文包括2D 图像脑补 3D 人体;亚马逊发布超越 GPT 3.5 的小模型等研究。

转自《机器之心》

目录

  1. Structure and Content-Guided Video Synthesis with Diffusion Models 

  2. EVA3D: Compositional 3D Human Generation from 2D Image Collections

  3. Multimodal Chain-of-Thought Reasoning in Language Models

  4. Is ChatGPT a General-Purpose Natural Language Processing Task Solver?

  5. Toolformer: Language Models Can Teach Themselves to Use Tools 

  6. Looped Transformers as Programmable Computers 

  7. AudioLDM: Text-to-Audio Generation with Latent Diffusion Models

论文 1:Structure and Content-Guided Video Synthesis with Diffusion Models

  • 作者:Patrick Esser 、 Johnathan Chiu 等

  • 论文地址:https://arxiv.org/pdf/2302.03011.pdf

摘要:近日,曾参与创建 Stable Diffusion 的 Runway 公司推出了一个新的人工智能模型「Gen-1」,该模型通过应用文本 prompt 或参考图像指定的任何风格,可将现有视频转化为新视频。

具体来说,Gen-1 支持几种编辑模式:

1、风格化。将任何图像或 prompt 的风格转移到视频的每一帧。

2、故事板。将模型变成完全风格化和动画的渲染。

3、遮罩。分离视频中的主题并使用简单的文本 prompt 对其进行修改。

4、渲染。通过应用输入图像或 prompt,将无纹理渲染变成逼真的输出。

5、定制化。通过自定义模型以获得更高保真度的结果,释放 Gen-1 的全部功能。

在该公司官方网站上发布的 demo 中,展示了 Gen-1 如何丝滑地更改视频风格,来看几个示例。

比如将「街道上的人」变成「粘土木偶」,只需要一行 prompt:

bda2ef489010c0a863097f4ccad16a7b.gif

推荐:从文本生成图像,再到给视频加特效,下一个 AIGC 爆发点要出现了吗?

论文 2:EVA3D: Compositional 3D Human Generation from 2D Image Collections

  • 作者:Fangzhou Hong 等

  • 论文地址:https://arxiv.org/abs/2210.04888

摘要:在 ICLR 2023 上,南洋理工大学 - 商汤科技联合研究中心 S-Lab 团队提出了首个从二维图像集合中学习高分辨率三维人体生成的方法 EVA3D。得益于 NeRF 提供的可微渲染,近期的三维生成模型已经在静止物体上达到了很惊艳的效果。但是在人体这种更加复杂且可形变的类别上,三维生成依旧有很大的挑战。本文提出了一个高效的组合的人体 NeRF 表达,实现了高分辨率(512x256)的三维人体生成,并且没有使用超分模型。EVA3D 在四个大型人体数据集上均大幅超越了已有方案,代码已开源。

ade5127d95ec2895514d71dbf85032bc.png

推荐:2D 图像脑补 3D 人体,衣服随便搭,还能改动作。

论文 3:Multimodal Chain-of-Thought Reasoning in Language Models

  • 作者:Zhuosheng Zhang 等

  • 论文地址:https://arxiv.org/abs/2302.00923

摘要:众所周知,ChatGPT 是在 GPT-3.5 系列模型的基础上微调而来的,我们看到很多研究也在紧随其后紧追慢赶,但是,与 ChatGPT 相比,他们的新研究效果到底有多好?近日,亚马逊发布的一篇论文提出了包含视觉特征的 Multimodal-CoT,该架构在参数量小于 10 亿的情况下,在 ScienceQA 基准测试中,比 GPT-3.5 高出 16 个百分点 (75.17%→91.68%),甚至超过了许多人类。

下图为 Multimodal CoT 两阶段过程:使用文本(问题 + 上下文)和视觉特征来产生逻辑依据。

cd72e0d4a01adcc1f7c46c2d9a72a736.png

推荐:超越 GPT 3.5 的小模型来了!

论文 4:Is ChatGPT a General-Purpose Natural Language Processing Task Solver?

  • 作者:Chengwei Qin 等

  • 论文地址:https://arxiv.org/pdf/2302.06476.pdf

摘要:ChatGPT 真的是「通才」吗?单拎出哪项能力都能完胜其他模型吗?哪些任务是 ChatGPT 擅长的,哪些不是?为了系统地探索这些问题,南洋理工大学博士生 Chengwei Qin、斯坦福大学计算机科学助理教授杨笛一等人进行了大量实验。

该研究主要比较了 ChatGPT 和 GPT-3.5 (textdavinci-003) 在不同任务下的 zero-shot 学习性能。

188dd2597e8dbe0bd6ed88b6bbd90a4f.png

推荐:ChatGPT 真的是「通才」吗?杨笛一等人给它来了个摸底考试。

论文 5:Toolformer: Language Models Can Teach Themselves to Use Tools

  • 作者:Timo Schick 等

  • 论文地址:https://arxiv.org/pdf/2302.04761v1.pdf

摘要:在自然语言处理任务中,大型语言模型在零样本和少样本学习方面取得了令人印象深刻的结果。然而,所有模型都存在固有的局限性,往往只能通过进一步扩展来部分解决。具体来讲,模型的局限性包括无法访问最新信息、会对事实产生「信息幻觉」、低资源语言理解困难、缺乏进行精确计算的数学技能等等。

解决这些问题的一种简单方法就是给模型配备外部工具,如搜索引擎、计算器或日历。然而,现有方法通常依赖于大量的人工注释,或将工具的使用限制在特定的任务设置下,使得语言模型与外部工具的结合使用难以推广。为了打破这种瓶颈,近期 Meta AI 提出了一种称为 Toolformer 的新方法,使得语言模型学会「使用」各种外部工具。如下为 Toolformer 的典型预测。

2bbb800ac3bf4253ced1461e98a7c021.png

推荐:语言模型自己学会用搜索引擎了?Meta AI 提出 API 调用自监督学习方法 Toolformer。

论文 6:Looped Transformers as Programmable Computers

  • 作者:Angeliki Giannou 等

  • 论文地址:https://arxiv.org/pdf/2301.13196.pdf

摘要:在本文中,作者展示了 Transformer 网络可以通过使用特定权重对它们进行硬编码并将它们置于一个循环中来模拟复杂的算法和程序。作者通过对 Attention 进行逆向工程来模拟基本计算块来做到这一点,例如对输入序列的编辑操作、非线性函数、函数调用、程序计数器和条件分支。作者的论文证明了使用单个循环或递归将 Transformer 的输出序列连接回其输入的重要性,从而避免对深度模型的需要。如下为用作实现小型指令集计算机构建块的三个 Transformer 块的示意图。

47cb739075964f8b20e6be8bccdfe83a.png

推荐:作者展示了 Transformer 网络可以通过使用特定权重对它们进行硬编码并将它们置于一个循环中来模拟复杂的算法和程序。

论文 7:AudioLDM: Text-to-Audio Generation with Latent Diffusion Models

  • 作者:Haohe Liu 等

  • 论文地址:https://arxiv.org/abs/2301.12503

摘要:给出一段文字,人工智能就可以生成音乐,语音,各种音效,甚至是想象的声音,比如黑洞和激光枪。最近由英国萨里大学和帝国理工学院联合推出的 AudioLDM,在发布之后迅速火遍国外,一周内在推特上收获了近 300 次的转发和 1500 次的点赞。在模型开源第二天,AudioLDM 就冲上了 Hugging Face 热搜榜第一名,并在一周内进入了 Hugging Face 最受喜欢的前 40 名应用榜单(共约 25000),也迅速出现了很多基于 AudioLDM 的衍生工作。

0da5cba10dbbf59b791af53d04311dbb.png

推荐:开源模型、单卡训练,带你了解爆火的文本指导音频生成技术 AudioLDM。

© The Ending

转载请联系本公众号获得授权

602c8ab078c5b4d9420cfc33322b9c6c.gif

计算机视觉研究院学习群等你加入!

计算机视觉研究院主要涉及深度学习领域,主要致力于人脸检测、人脸识别,多目标检测、目标跟踪、图像分割等研究方向。研究院接下来会不断分享最新的论文算法新框架,我们这次改革不同点就是,我们要着重”研究“。之后我们会针对相应领域分享实践过程,让大家真正体会摆脱理论的真实场景,培养爱动手编程爱动脑思考的习惯!

1aa868c8abdfba163883eedab6f02934.jpeg

扫码关注

计算机视觉研究院

公众号IDComputerVisionGzq

学习群扫码在主页获取加入方式

 往期推荐 

🔗

  • 计算机视觉研究院亲自体验ChatGPT的感受,太疯狂了!

  • 用于吸烟行为检测的可解释特征学习框架(附论文下载)

  • 图像自适应YOLO:恶劣天气下的目标检测(附源代码)

  • 新冠状病毒自动口罩检测:方法的比较分析(附源代码)

  • NÜWA:女娲算法,多模态预训练模型,大杀四方!(附源代码下载)

  • 实用教程详解:模型部署,用DNN模块部署YOLOv5目标检测(附源代码)

  • LCCL网络:相互指导博弈来提升目标检测精度(附源代码


http://www.ppmy.cn/news/627351.html

相关文章

超越GPT 3.5的小模型来了!

机器之心报道 编辑:陈萍 进NLP群—>加入NLP交流群 多模态思想的力量很强大。 去年年底,OpenAI 向公众推出了 ChatGPT,一经发布,这项技术立即将 AI 驱动的聊天机器人推向了主流话语的中心,众多研究者并就其如何改变商…

百度SEO主动推送工具-小超越工作室

介绍: 为了让发布的文章更快的被百度收录,我们发布完文章之后,最后做一下链接提交,但是,有些人不懂技术,那么,百度官方的链接提交接口,和熊掌号就没法用了,今天&#xf…

PHP对二维数组里的指定key的值,对数组的多条数据进行排序

*param array $data,$offline*param int $data_count*return array* *///关系天数升序public static function Relational_rise($data,$offline,$data_count,$Sum_count){$datas array();foreach($data as $key>$v){$datas[$key][date] $v[date];}array_multisort($datas,S…

B. Falling Anvils ( math )

题意: 给你一个公式 , 给你一个的范围在,的范围在 问你一对可以使上面的式子成立概率。 思路: 因为有解,所以 假设 那么满足: 所以只需要求出y4x以下的面积就行。 第一种: 第二种: 代码&#xff1…

【Python编程】图片裁剪

导入必要的模块 import os import cv2定义要裁剪的图片的路径变量 DATADIR r"E:\系统默认\桌面\pytorch-CycleGAN-and-pix2pix123\datasets\RGB2ToF\\" data_k "trainA" path os.path.join(DATADIR, data_k)os.listdir()函数:返回指定的文…

封魔录指引功能

1.在GuideDefine脚本里加入需要的指引 2.在需要的地方加入指引运行方法

《崩坏:星穹铁道》游戏遇到打不开/闪退/黑屏怎么办?

解决方法一:关闭多余程序 当前后台运行的程序过多,造成超载负荷,建议关闭后台运行程序再重新进入游戏选择; 解决方法二:切换稳定网络 检查自己当前使用的网络状态是否稳定,可能是因为网络不稳定导致运行…

服务器修改拔刀剑修改数,关于拔刀剑的(求助大佬!)

我想用指令刷出一把杀敌数为10000 荣耀之魂为20000 锻造数为1000的拔刀,以下指令并不能刷出 flammpfeil.slashblade:slashbladeWrapper#{ench:[0:{lvl:4s,id:17s},1:{lvl:2s,id:19s},2:{lvl:2s,id:20s}],WrapItem:{id:268s,Count:1b,Damage:0s},ModelName:\"na…