HIPT论文阅读

news/2024/12/27 1:55:05/

题目《Scaling Vision Transformers to Gigapixel Images via Hierarchical Self-Supervised Learning》

论文地址:[2206.02647] Scaling Vision Transformers to Gigapixel Images via Hierarchical Self-Supervised Learning

项目地址:mahmoodlab/HIPT: Hierarchical Image Pyramid Transformer - CVPR 2022 (Oral)

Abstract:

        视觉变换器(ViTs)及其多尺度和层次变体在捕获图像表示方面取得了成功,但它们通常被研究用于低分辨率图像(例如256×256,384×384)。对于计算病理学中的千兆像素全切片成像(WSI),WSIs的尺寸可以大至150000×150000像素,在20倍放大倍数下,展现出不同分辨率下的视觉标记的层次结构:从16×16的图像捕获单个细胞,到4096×4096的图像表征组织微环境中的相互作用。我们引入了一种新的ViT架构,称为层次图像金字塔变换器(HIPT),它利用WSI中固有的自然层次结构,通过两级自监督学习来学习高分辨率图像表示。HIPT在33种癌症类型上进行了预训练,使用了10,678个千兆像素WSIs、408,218个4096×4096图像和1.04亿个256×256图像。我们在9个幻灯片级别的任务上对HIPT表示进行了基准测试,并证明了:1)具有层次预训练的HIPT在癌症亚型和生存预测方面超越了当前的最先进方法,2)自监督ViTs能够对肿瘤微环境中表型层次结构的重要归纳偏差进行建模。

Introduction:

        在20×目标下扫描WSIs,结果是一个大约每像素0.5微米的固定尺度,允许对视觉元素进行一致的比较,这可能揭示了超出正常参考范围的重要组织形态学特征。此外,WSIs在20×放大倍数下还展现出不同图像分辨率下的视觉标记的层次结构:

16×16的图像包含细胞和其他细粒度特征(基质、肿瘤细胞、淋巴细胞)[23, 37],

256×256的图像捕获细胞间相互作用的局部簇(肿瘤细胞性)[2,8,31,60],

1024×1024-4096×4096的图像进一步表征细胞簇之间的宏观相互作用及其在组织中的组织(描述肿瘤浸润与肿瘤远端淋巴细胞的肿瘤-免疫定位程度)[1, 10],

最后,整个肿瘤内部异质性在WSI的幻灯片级别上描绘[5,36,40,58,65]。本工作测试的假设是,在自监督学习中合理利用这一层次结构可以产生更好的幻灯片级表示。

在HIPT中:

1)我们将学习WSI的良好表示问题分解为通过自监督学习可以学习的层次相关表示;

2)我们使用学生-教师知识蒸馏(DINO[14])在高达4096×4096的区域上对每个聚合层进行预训练。我们将HIPT应用于在20×分辨率下提取的千兆像素组织病理图像的学习表示任务。

Related work:

1、在WSIs中的多重实例学习。 在一般的基于集合的深度学习中,Edwards & Storkey和Zaheer等人提出了第一个在基于集合的数据结构上操作的网络架构,Brendel等人证明了“特征包”能够在ImageNet上达到高精度[11,26,82]。与此同时,在病理学领域,Ilse等人将基于集合的网络架构扩展为组织学感兴趣区域的多重实例学习的方法,Campanella等人后来在千兆像素WSIs上扩展了端到端的弱监督[13,39]。Lu等人证明了通过使用在ImageNet上预训练的ResNet-50编码器进行实例级特征提取,只需要训练一个全局池化操作器就可以用于弱监督的幻灯片级任务[54]。在Lu等人之后,有许多MIL的变体适应了图像预训练技术,如VAE-GANs、SimCLR和MOCO作为实例级特征提取[46,64,86]。最近的MIL变体也发展到扩展聚合层和评分函数[18,66,70,77,79,80,87]。Li等人提出了一个多尺度MIL方法,该方法在20×和5×分辨率下进行斑块切割和自监督实例学习,然后对斑块进行空间解析对齐[46]。在WSIs中整合放大目标的工作也在其他工作中跟进[30,33,57,59],然而,我们注意到跨目标结合视觉标记不会共享相同的尺度。在这项工作中,斑块切割是在单一放大目标下完成的,使用更大的斑块尺寸来捕获宏观形态特征,我们希望这将有助于重新思考WSIs的上下文建模。(红色是核心创新点)

2、视觉变换器和图像金字塔。 Vaswani等人的开创性工作不仅在语言建模方面取得了显著发展,也在通过视觉变换器(ViTs)进行图像表示学习方面取得了进展,其中256×256的图像被构建为[16×16]视觉标记的图像补丁序列[24,71,73]。受多尺度、金字塔式图像处理的启发[12,43,63],最近在ViT架构开发中的进展集中在效率和多尺度信息的整合上(例如- Swin, ViL, TNT, PVT, MViT),以解决视觉标记的不同尺度/纵横比问题[28,32,52,74,83]。与病理学相比,我们强调如果图像尺度在给定放大倍数下是固定的,那么学习尺度不变性可能不是必要的。与我们的工作类似的是NesT和Hierarchical Perciever,它们同样通过Transformer块从非重叠的图像区域分割然后聚合特征[15,85]。一个关键的区别是我们展示了每个阶段的ViT块可以单独预训练,用于高分辨率编码(高达4096×4096)。

Method:

Result:


http://www.ppmy.cn/news/1558403.html

相关文章

机器学习基础 衡量模型性能指标

目录 1 前言 ​编辑1.1 错误率(Error rate)&精度(Accuracy)&误差(Error): 1.2 过拟合(overfitting): 训练误差小,测试误差大 1.3 欠拟合(underfitting):训练误差大,测试误差大 1.4 MSE: 1.5 RMSE: 1.6 MAE: 1.7 R-S…

钉钉自定义机器人发送群消息(加签方式、http发送)

在钉钉群里创建自定义机器人(群设置-机器人-添加机器人),选择自定义机器人 安全设置有三种,本文章使用加签(secret)方式 ,其他方式可参考官方文档:获取自定义机器人 Webhook 地址 - 钉钉开放平台 添加成功后…

upload-labs关卡记录3

同理,我们先上传一个一句话木马进行尝试,发现页面会刷新,于是看是白名单还是黑名单 看到提示:不允许上传.asp,.aspx,.php,.jsp后缀文件!说明这是黑名单的类型。这里我们发现在限制里面,并没有说不能上传.ht…

工厂常用软件系统大全中英文全称对照表及功能介绍应用场景ERP MES WMS SCADA IOT SAP等软件系统介绍

1. ERP(Enterprise Resource Planning)企业资源计划: ○ 功能:整合企业的各项资源和业务流程,涵盖从采购、生产到销售的各个环节。包括财务管理、生产计划、采购管理、库存管理、销售管理、人力资源管理等。 ○ 应用场…

创建仓颉编程语言的第一个项目

创建仓颉编程语言的第一个项目 安装仓颉编程语言编译器第一个仓颉项目 安装仓颉编程语言编译器 安装仓颉编程语言编译器,是一个需要非常强的动手能力的过程——有大量的命令行操作。这不是仓颉编程语言独有的特点。现在流行的编程语言,比如 kotlin、jav…

江苏计算机专转本 技能Mysql知识点总结(一)

一、概述 1.使用命令行窗口链接MySQL数据库 mysql -u用户名 -p 密码 2.数据表中的一行称为 一条记录 3.SQL Server、Oracle、Mysql、DB2、SyBase,PostgreSQL全是关系数据库。 MongoDB、Cassandra、Neo4j全是非关系数据库。 4.E-R图 矩形:表示实体。菱…

【区块链】深入理解椭圆曲线密码学(ECC)

🌈个人主页: 鑫宝Code 🔥热门专栏: 闲话杂谈| 炫酷HTML | JavaScript基础 ​💫个人格言: "如无必要,勿增实体" 文章目录 深入理解椭圆曲线密码学(ECC)1. 概述2. 椭圆曲线的数学基础2.1 基本定义2.2 有限…

docker 软连接修改存储位置

查看docker路径 默认情况下Docker的存放位置为:/var/lib/docker,也可以通过如下命令查看docker存储路径 docker info | grep "Docker Root Dir" 停掉docker服务 systemctl stop docker 移动docker目录 mv /var/lib/docker /var/sda1/docker_…