【论文速看】DL最新进展20241008-多模态、医学图像分割、扩散模型

embedded/2024/10/9 0:04:20/

目录

    • 【多模态】
    • 【医学图像分割】
    • 【扩散模型】

【多模态】

PaliGemma: A versatile 3B VLM for transfer

研究机构:google

论文链接:https://arxiv.org/pdf/2407.07726

模型及其说明链接:https://huggingface.co/google/paligemma-3b-pt-224

PaliGemma 是一个基于 SigLIP-So400m 视觉编码器和 Gemma-2B 语言模型的开放视觉-语言模型(VLM)。它经过训练成为一个多功能且知识广泛的基础模型,适用于多种任务迁移。在各种开放世界任务中,PaliGemma 表现出色。我们在将近 40 个多样化的任务上评估了 PaliGemma,包括标准的 VLM 基准测试,以及更专业的任务如遥感和分割。

在这里插入图片描述


【医学图像分割】

[NeurlPS 2024 通用分割模型] SegVol: Universal and Interactive Volumetric Medical Image Segmentation

论文链接:https://arxiv.org/pdf/2311.13385

代码链接:https://github.com/BAAI-DCAI/SegVol

精确的图像分割为临床研究提供了指导性信息。尽管在医学图像分割领域取得了显著进展,但仍然缺乏一个能够通过简单的用户交互对广泛解剖类别进行分割的三维基础分割模型。这篇论文提出了一个名为SegVol的三维基础分割模型,支持通用且交互式的体积医学图像分割。通过将训练数据扩展到90K个未标记的CT(计算机断层扫描)体积和6K个标记的CT体积,这个基础模型支持使用语义和空间提示对超过200个解剖类别进行分割。为了便于高效且精确地推断体积图像,设计了一个zoom out-zoom in机制。在22个解剖分割任务上的大量实验验证了SegVol在19个任务中的表现优于竞争对手,与次优方法相比改进幅度高达37.24%。消融研究展示了特定设计的有效性和重要性。

在这里插入图片描述


[MICCAI 2024] DB-SAM: Delving into High Quality Universal Medical Image Segmentation

论文链接:

代码链接:https://github.com/AlfredQin/DB-SAM

最近,分割一切模型(SAM)在各种下游分割任务中展示了有前景的分割能力。然而,在通用医学图像分割的背景下,直接应用SAM时存在显著的性能差距,这是由于自然数据与二维/三维医学数据之间的领域差异。这项工作提出了一种双分支适应的SAM框架,命名为DB-SAM,旨在有效弥合这一领域差距。双分支适应SAM包含两个并行的分支:一个ViT分支和一个卷积分支。ViT分支在每个冻结的注意力块之后引入了一个可学习的通道注意力块,以捕捉特定领域的局部特征。另一方面,卷积分支采用轻量级的卷积块,从输入医学图像中提取特定领域的浅层特征。为了执行跨分支特征融合,设计了一个双边交叉注意力块和一个ViT卷积融合块,动态结合两个分支的多样化信息用于掩码解码器。在大规模医学图像数据集上进行的大量实验揭示了所提出的模型的优点。在21个三维医学图像分割任务中,DB-SAM相比文献中最近的医学SAM适配器实现了8.8%的绝对增益。

在这里插入图片描述


【扩散模型】

[2024 3D扩散模型综述] Diffusion Models in 3D Vision: A Survey

论文链接:https://arxiv.org/pdf/2410.04738

近年来,三维视觉已成为计算机视觉领域的重要研究方向,广泛应用于自动驾驶、机器人技术、增强现实(AR)和医学成像等领域。该领域依赖于从图像和视频等二维数据源准确感知、理解和重建三维场景。扩散模型最初设计用于二维生成任务,它们提供了更灵活的概率方法,能够更好地捕捉现实世界三维数据的变异性和不确定性。然而,传统方法在效率和可扩展性方面往往面临挑战。本文回顾了利用扩散模型进行三维视觉任务的最新方法,包括但不限于三维物体生成、形状补全、点云重建和场景理解。作者深入讨论了扩散模型的数学原理,概述了它们的正向和反向过程,以及使这些模型能够处理三维数据集的各种架构改进。还讨论了将扩散模型应用于三维视觉的关键挑战,例如处理遮挡和点密度变化,以及高维数据的计算需求。最后,探讨了潜在的解决方案,包括提高计算效率、增强多模态融合,以及探索使用大规模预训练以更好地泛化到三维任务。本文为这一快速发展领域的未来探索和发展奠定了基础。
在这里插入图片描述



http://www.ppmy.cn/embedded/124784.html

相关文章

栈_1(2024年10月08日)

2024年10月08日 记录_导读 2024年10月08日 19:31 关键词 队列 线性表 假溢出 逻辑结构 物理结构 元素添加 数据结构 操作 元素 top 入栈 出栈 极限情况 size 函数 对比 结构 指针 链表 单链表 全文摘要 队列作为一种数据结构,以其先进先出的特性,在…

PyQt入门指南一 框架介绍

1. PyQt概述 PyQt是一个用于创建桌面应用程序的Python绑定库,它基于Qt框架。Qt是由挪威公司Trolltech开发的跨平台C图形用户界面应用程序开发框架。PyQt使得Python开发者能够利用Qt的强大功能来构建专业的图形用户界面(GUI)应用程序。 2. 为…

数据赋能(202)——开发:数据开发管理——技术方法、主要工具

技术方法 数据开发管理的技术方法主要包括以下几种: 阶段化管理: 数据开发阶段化管理是指将数据开发划分为若干个小的阶段,每个阶段都有其特定的任务和输出。这种方法有助于数据开发管理者更好地掌控数据开发进度,确保每个阶段都…

《重生到现代之从零开始的C语言生活》—— 结构体和位段

结构体 我们在之前是了解过结构体的,现在我们来稍微复习一下 结构体的声明 struct name {member list };假如我想创建一个结构体呢么我们可以 struct a {int a;char b[20];float c; };这是我们创建了这个结构体,当我们想初始化时 #inclu…

MFC工控项目实例之十九手动测试界面输出信号切换

承接专栏《MFC工控项目实例之十八手动测试界面输入信号实时检测》 根据板卡设置界面组合框选项设定的输出信号,通过读取文件中保存的键值,用单选按钮切换输出信号接通、关闭。 1、在Data_1.h文件中添加代码 CString COMB_Data_O_1[]{"夹紧",&…

『网络游戏』Tips弹窗队列【10】

修改脚本:DynamicWnd.cs 修改脚本:GameRoot.cs 运行项目 - Tips提示消息按顺序依次弹出显示 修改代码:GameRoot.cs 修改代码:LoginSys.cs 运行项目 设置初始化函数 将CreateWnd设置为隐藏 运行项目 本章结束

如何实现 C/C++ 与 Python 的通信?

在现代编程中,C/C与Python的通信已经成为一种趋势,尤其是在需要高性能和灵活性的场景中。本文将深入探讨如何实现这两者之间的互通,包括基础和高级方法,帮助大家在混合编程中游刃有余。 C/C 调用 Python(基础篇&#…

Pikachu-Sql Inject-宽字节注入

基本概念 宽字节是相对于ascII这样单字节而言的;像 GB2312、GBK、GB18030、BIG5、Shift_JIS 等这些都是常说的宽字节,实际上只有两字节 GBK 是一种多字符的编码,通常来说,一个 gbk 编码汉字,占用2个字节。一个…