UniverSeg:通用医学图像分割模型来了!

news/2024/11/16 11:32:31/

自从今年以来ChatGPT爆火和GPT-4的发布,一时间在大模型的潮流下,通用人工智能(AGI)也呼之欲出。随着本月初SAM和SegGPT等通用的CV大模型的提出,大模型和通用模型这把火也逐渐烧到的CV领域,特别是图像分割领域。很多做分割方向的小伙伴自我调侃说一觉醒来,自己的方向没了。

笔者所在的医学影像行业,一直以数据和高成本标注而筑起非常高的领域壁垒。几个月前要是有人跟我说想做一个医学影像的通用分割模型,我一定会觉得你是在说胡话。但此一时彼一时也,月初SAM发布的时候,主要对标的自然图像,笔者也测试了其在医学影像上表现,效果可以说超出预期了,但远不如自然图像,这让笔者感到医学影像的领域壁垒要打破可能还早。

但打脸来得太快。昨天看到了MIT发布的UniverSeg工作,名字很直接,针对的就是医学影像的通用分割:UniverSeg: Universal Medical Image Segmentation。趁着今天周末在家,赶紧把论文打印出来认真读了一遍。 

b7e036228ec481a2e1d323ca239fc32d.jpeg

近几年深度学习图像分割一直是高度定制化的,而医学影像分割尤其如此,对于不同影像模态(CT、MR、超声、X-ray、OCT等)、不同身体部位、不同标注(同一影像,可能会有不同的目标对象)。笔者所在的行业和方向,做一个目标影像或者疾病的分割任务,一定是专门收集该任务的影像数据,然后找专业人员来标注,再训练一个定制化的分割模型,这个模型是高度垂直的、定制化的和难以迁移的。但现在SAM和UnvierSeg的出现打破了这一范式。如图2所示,区别于此前的训练-预测的分割范式,UniverSeg给出的分割范式是:输入查询图像(Query Image),即待分割图像,再给定若干对提示图像-标注对(Support Set),UniverSeg就可以对查询图像进行很好的分割。 

fed174ab6d13927f2575fe826c7d6dba.png

数据

先来看数据部分。UniverSeg研究总共使用了53个开源或者半开源的医学影像数据集,总共包括26个医学领域、16种影像模态和22000多次扫描。因为聚焦的是2D医学图像分割,所以对来源数据集中属于3D volume的数据都做了层采样,包括中间层采样(mid-slices)和最多标签体素层采样(max-slices)。基于这53个数据集构建的新数据被命名为MegaMedical数据集。但因为各来源数据集的有限获取规则,所以作者也没有开源MegaMedical。训练集构成信息如图3所示。

f0f88f882adb9f1feba481ba866e9642.png

模型

模型部分是UniverSeg工作的重点部分。传统的分割任务范式针对数据集,目标是训练一个监督学习模型,其中即为常规的卷积分割网络。但UniverSeg给出的模型范式是:,其中表示给定任务的输入,即待分割的查询图像,表示为提示图像和标注对:。

UniverSeg针对以上分割任务范式,提出了一种交叉卷积构成的CrossBlock结构,能够在查询图像和提示图像之间进行信息交互。给定查询图像特征图和一组提示图像特征图,交叉卷积层可以定义为:

其中表示两个特征图的concatenation。基于上述交叉层,进一步地可搭建交叉模块为:

最终,基于交叉卷积模块构建出的UniverSeg网络结构如图3所示。同时,为了提高UniverSeg的性能,模型在训练的时候也都做了数据增强,包括In-Task和Task两种数据增强方案。UniverSeg的训练流程如下图所示。整体结构仍然是基于UNet的编解码架构,只是卷积层都用CrossConv模块来代替了。

55e880224135965ab09fb054ac670614.png

实验

实验部分主要是与一些少样本模型(SENet、ALPNet、PANet)做了基线对比,然后在任务多样性、提示数据规模、查询图像规模等方面做了消融研究。UniverSeg试验部分做得很扎实,附录里面给了很多维度的性能结果,笔者这里不做一一展示。

6e38e972fe0641c5cf097dccd0d214ce.png

ce284f43b069daff018fe77b786d859c.png

总结

UniverSeg的主要贡献包括:

  • 提出了基于CrossBlock交叉模块机制的UniverSeg作为新的医学图像分割范式,无需重新训练新分割模型。

  • 与以往的少样本模型相比,UniverSeg在未经训练的新影像上表现出了与监督分割模型相当的精度。

  • 训练时的样本多样性能够使得UniverSeg有着强大的泛化性能。

总体来讲,在数据壁垒极高和标注成本极大的医学图像领域,通用分割模型不在遥不可及。随着AGI和CV大模型的发展,UniverSeg以及后续研究会逐渐推进这一领域的发展。2D分割模型也会逐渐向2.5D和3D扩展和延伸。

代码

项目代码地址:https://github.com/JJGO/UniverSeg demo地址:https://colab.research.google.com/drive/19Sauvhyzae5qvVLguaZRCuH1vJ5oTuw-?usp=sharing


另外,为了聚集更多的人参与到AI生产力工具上来,笔者前几天特意组建了一个名为【ChatGPT实验室】的知识星球,目前已有170+读者加入,星球的主要定位包括:

1. 如何基于ChatGPT提高工作和学习效率。

2. 跟踪NLP、LLM、AIGC和AGI的前沿动态和最新进展。

3. 分享ChatGPT的最新应用和玩法。

9f204358d67ac7d933ea76e3449e86d0.jpeg


http://www.ppmy.cn/news/44134.html

相关文章

Qt网络编程 (udp广播和接收例)

大纲概述senderreceiver演示概述 使用两个项目 1 sender 用来广播"hello world";2 receiver 用来接收广播信息 sender 1 创建Qdialog类2 在sender.pro 中添加 QT network 一行代码3 在sender.h 中声明类 class QUdpSocket;在声明一个私有对象QUdpSocket *sender;…

TikTok和国产抖音的发展路径和趋势

鑫优尚电子商务:以历史为镜子,我们可以知道变化。 纵观TikTok和国产抖音,我们会发现TikTok目前的发展路径和趋势与国产抖音的主线十分相似,直播也是如此。鑫优尚电子商务 国内抖音直播一般经历过四个时代:直播1.0时代…

Torch 入门教程

文章目录Torch 入门教程Torch 的基础知识torch和PyTorch什么区别?TensorAutogradOptimizer举例一模型定义模型训练模型保存和加载模型评估举例二数据载入模型定义和训练模型测试总结Torch 入门教程 这是一篇针对 Torch 框架的入门教程,主要介绍 Torch 的…

springcloud-openFeign简单梳理

OpenFeign openFeign是springcloud中,服务间进行调用的常用方式。了解它,可以更好的处理服务间调用问题。 EnableFeignClients Retention(RetentionPolicy.RUNTIME) Target(ElementType.TYPE) Documented Import(FeignClientsRegistrar.class) public …

3、Web前端学习规划:CSS - 学习规划系列文章

CSS作为Web前端开发的第2种重要的语言,笔者建议在学了HTML之后进行。CSS主要是对于HTML做一个渲染,其也带了一些语言语法函数,功能也非常强大。 1、 简介; CSS(层叠样式表)是一种用于描述网页样式的语言。它可以控制网页中的字体、…

ERTEC200P-2 PROFINET设备完全开发手册(5-3)

5.3 标识和维护数据(I&M) 标识和维护数据是一类特殊的数据记录,其中 “I&M0”(“16#AFF0”)用于有关模块或设备的常规信息。包含的信息例如:订货号/Order-ID, 硬件软件版本/hard- and software v…

pandas笔记:offset.DateOffset

进行date的偏移 class pandas.tseries.offsets.DateOffset 1 参数说明 n 偏移量表示的时间段数。 如果没有指定时间模式,则默认为n天。 normalize是否将DateOffset偏移的结果向下舍入到前一天午夜**kwds 添加到偏移量的时间参数 年(years&#xff09…

Linux复习 / 动静态库QA梳理 | 如何使用第三方库?

文章目录前言Q&A概念Q:使用静态库和使用动态库的程序有什么区别?Q:什么是静态链接/动态链接?使用与制作Q:如何制作动静态库?Q:如何使用第三方库?Q:程序加载时&#x…