Nature子刊：用于阿尔茨海默病痴呆评估的多模态深度学习模型

在全球范围内，每年有近1000万新发痴呆病例，其中阿尔茨海默病（AD）最为常见。需要新的措施来改善对各种病因导致认知障碍的个体的诊断。作者报告了一个深度学习框架，该框架以连续方式完成多个诊断步骤，以识别具有正常认知（NC）、轻度认知障碍（MCI）、AD和非AD痴呆（nADD）的人。作者展示了一系列能够接受常规收集的临床信息的灵活组合的模型，包括人口统计、病史、神经心理学测试、神经影像学和功能评估。然后，作者表明这些框架与执业神经科医生和神经放射科医生的诊断准确性相比具有优势。最后，作者在计算机视觉中应用可解释性方法，以表明模型检测到的疾病特异性模式可以跟踪整个大脑的退行性变化的不同模式，并与尸检时神经病理学病变的存在密切相关。作者的工作证明了使用既定的医学诊断标准验证计算预测的方法。

介绍
阿尔茨海默病（AD）是全球痴呆症的最常见原因，未来由于人口老龄化导致的病例数量增加可能会加剧对现有的医疗服务需求。临床需求的增加可能会加剧老年人发病率和死亡率的负担，因此需要改进治疗并及时识别AD。近年来，在开发脑脊液（CSF）生物标志物以及淀粉样蛋白和tau正电子发射断层扫描（PET）等先进成像模式方面做出了重大努力。此外，新一代的AD疾病治疗方法现已进入临床研究范围，尽管其疗效仍存在争议。尽管取得了这些进展，但许多新兴的诊断和治疗方式仍然仅限于研究环境，并且生前诊断的支柱仍然是传统的临床评估、神经心理学测试和磁共振成像（MRI）。轻度认知障碍（MCI）是痴呆的前驱阶段，也可能是AD的一种微妙的早期表现，其诊断同样需要资深专家的显着临床敏锐度。使问题复杂化的是存在许多其他非阿尔茨海默病痴呆（nADD）综合征，其临床表现通常与AD重叠。因此，AD以外的常见痴呆原因，如血管性痴呆（VD）、路易体痴呆（LBD）和额颞叶痴呆（FTD），扩大了神经退行性疾病的鉴别诊断范围，并导致诊断敏感性和特异性的变异性。

要可靠地区分正常认知老化、MCI、AD和其他痴呆病，需要治疗记忆障碍的熟练的专家具有显着的临床敏锐度，但患者和家属及时进入记忆诊所往往受到限制。这在发达国家的偏远农村地区和经济发展中的国家是个大问题，因为那里缺乏专业的医生。此外，对熟练临床医生的需求正在上升，但美国预计在未来几十年内将面临神经科医生等熟练的临床医生的短缺。随着临床需求的增加与医学专业知识的供应减少，用于帮助神经系统诊断的机器学习方法已开始引起人们的兴趣。作为对其他组报告的高诊断准确性的补充，作者之前报告了可解释的深度学习方法，该方法能够使用磁共振成像（MRI）扫描、年龄、性别和简易精神状态检查（MMSE）。其他人也证明了深度学习在区分AD和特定类型的nADD方面的功效。然而，在记忆诊所就诊的人的临床评估需要考虑认知障碍的多种病因。因此，在统一框架中成功区分不同研究队列中的NC、MCI、AD和nADD的能力仍有待开发。

在这项研究中，作者报告了一个深度学习框架的开发和验证，该框架能够在具有不同痴呆病因和不同认知功能水平的多个参与者队列中准确分类患有NC、MCI、AD和nADD的受试者（表1，图1）。使用来自国家阿尔茨海默病协调中心（NACC）的数据，作者开发并外部验证了能够使用MRI、非成像变量及其组合对认知状态进行分类的模型。为了验证作者的方法，作者证明了模型的准确性与一组执业神经科医生和神经放射科医生的诊断性能的可比性。然后作者利用ShapleyAdditiveexPlanations（SHAP），将计算预测与神经退行性变的众所周知的解剖学和病理学标记联系起来。作者的策略提供了证据，证明即使在异构数据集中，由深度学习驱动的自动化方法也可以接近准确诊断的临床标准。
表1研究人群和特征

图1.建模框架和总体策略。包括MRI扫描、人口统计、病史、功能评估和神经心理学测试结果在内的多模态数据被用于开发各种分类任务的深度学习模型。本研究使用了八个独立的数据集，包括NACC、ADNI、AIBL、FHS、LBDSU、NIFD、OASIS和PPMI。作者选择NACC数据集来开发三个独立的模型：（i）仅MRI的CNN模型（ii）传统机器学习分类器形式的非成像模型，它不使用任何MRI数据（iii）一个融合模型，在连接CNN和CatBoost模型的混合架构中结合成像和非成像数据。仅MRI模型在所有八个队列中都得到了验证，而非成像和融合模型的外部验证仅在OASIS上进行。首先，将T1加权MRI扫描输入CNN以计算连续痴呆模型（DEMO）分数，以评估0到2级的认知状态，其中“0”表示NC，“1”表示MCI，“2”表示DE。使用最佳阈值算法将DEMO分数转换为类别标签，这些分配构成COG任务。对于患有DE诊断的个体，多任务CNN模型同时区分了他们患AD和nADD的风险，作者将这种分类称为ADD任务。作者将AD诊断的概率表示为ALZheimer（ALZ）评分。然后将MRI导出的DEMO分数和ALZ分数与非成像变量一起输入到各种机器学习分类器中以形成融合模型，然后分别预测COG和ADD任务的结果。从NACC测试队列中随机选择了一部分确诊的痴呆症病例（n=50），与国际执业神经放射学家团队直接比较融合模型。模型和神经放射科医生都使用可用的MRI扫描、年龄和性别完成了ADD任务。此外，随机选择了一部分NACC病例（n =100）以将融合模型的性能与执业神经科医生进行比较，模型和临床医生都能获得一套共同的多模态数据。最后，将模型预测与NACC、ADNI和FHS队列（n =110）的神经病理学等级进行比较。

结果
作者将鉴别诊断过程划分为阶段性任务。第一个，作者称之为COG任务，将人标记为NC、MCI或任何原因引起的痴呆（DE）。值得注意的是，COG任务可以被视为包含三个独立的二元分类子任务：（i）COGNC任务：分离NC和MCI/DE病例（ii）COGMCI任务：分离MCI与NC/DE病例，以及（iii）COGDE任务：将DE与NC/MCI病例分开。在完成整体COG任务后，作者接下来制定了ADD任务，其中作者将所有标记为DE的人分配给AD或nADD的诊断。COG和ADD任务的连续完成允许执行全面描述NC、MCI、AD和nADD案例的总体4分类。

作者还创建了三个独立的模型：（i）仅MRI模型：一个卷积神经网络（CNN），它在内部计算一个连续的痴呆模型（DEMO）分数来完成COG任务，以及一个阿尔茨海默氏（ALZ）分数来完成ADD任务。（ii）非成像模型：传统的机器学习分类器，仅将来自人口统计学、既往病史、神经心理学测试和功能评估的标量值临床变量作为输入。与仅MRI模型一样，非成像模型还计算了可以完成COG和ADD任务的DEMO和ALZ分数。作者针对这些目的测试了多种机器学习架构，并最终选择了CatBoost模型作为作者最终的非成像模型架构。（iii）融合模型：该框架将CNN连接到CatBoost模型。通过这种方法，CNN计算的DEMO和ALZ分数被回收并与可用的临床变量一起使用。CatBoost模型然后在附加的非成像信息的上下文中重新计算这些分数。

图2.特定于站点和扫描仪的观察结果。后处理MRI和隐藏层激活的无监督聚类分别评估了输入数据和模型预测中的系统偏差。a显示了下采样MRI扫描的二维（2D）t分布随机邻域嵌入（tSNE）嵌入。使用样条插值对后处理的MRI扫描进行下采样，每个轴上的下采样因子为8。各个点代表来自单个受试者的MRI，并根据其原始队列（NACC、ADNI、AIBL、FHS、LBDSU、NIFD、OASIS或PPMI）着色。b作者展示了来自倒数第二个CNN隐藏层的隐藏层激活的2DtSNE。各个点对应于测试期间MRI扫描的内部表示，并按队列标签着色。c显示了来自NACC数据集的下采样MRI扫描的2DtSNE嵌入图。代表MRI扫描的各个点由参与NACC合作的21个阿尔茨海默病研究中心（ADRC）之一的唯一标识符着色。d显示了由ADRCID着色的倒数第二层激活的dtSNE嵌入。e显示了来自NACC数据集的下采样MRI扫描的2DtSNE嵌入图。此图中的嵌入与c中的嵌入相同，但根据用于获取每个MRI的扫描仪制造商（通用电气（GE）、西门子或飞利浦）进行着色。

FNACC数据集中的案例显示了倒数第二层激活的2DtSNE图。嵌入等同于在d中可视化的嵌入，但现在由用于图像采集的扫描仪制造商着色。g提供了按制造商分类的疾病类别计数的表格。仅包括NACC数据集中的案例。作者提供互信息评分（MIS）来量化疾病类型和扫描仪制造商之间的相关性。H作者还提供了NACC数据集中按ADRCID分层的疾病类别计数的表格表示。MIS再次被证明可以量化诊断标签和参与NACC研究的各个中心之间的相关程度。
表2混合模型性能

图3.深度学习模型的性能。a，bROC曲线显示真阳性率与假阳性率，PR曲线显示阳性预测值与灵敏度，在aNACC测试集和bOASIS数据集上。a和b中的第一行表示仅MRI模型、非成像模型和融合模型（CNN+CatBoost）的性能，这些模型经过训练可将有NC的病例与没有NC的病例分类（COGNC任务）。第二行显示了仅MRI模型、非成像模型和COGDE的融合模型的ROC和PR曲线旨在区分有DE的病例和没有DE的病例的任务。第三行说明了仅MRI模型、非成像模型和侧重于区分AD与nADD的融合模型的性能。对于每条曲线，计算平均AUC。在每个图中，平均ROC/PR曲线和标准偏差分别显示为粗线和阴影区域。每个图中的虚线表示具有随机性能水平的分类器。c，d融合模型中具有最高平均绝对SHAP值的15个特征分别用于COG和ADD任务，分别在交叉验证轮次（n =5）。覆盖在条形图上的误差条以数据的平均值为中心，并扩展了+/-一个标准差。对于每项任务，MRI扫描、人口统计信息、病史、功能评估和神经心理学测试结果都被用作深度学习模型的输入。c和d中的左图说明了SHAP值的分布，右图显示了平均绝对SHAP值。c和d中的所有图均按平均绝对SHAP值的降序排列。e，f为了比较，作者还构建了传统的机器学习模型，使用深度学习模型所使用的相同特征集来预测认知状态和AD状态，结果分别在e和f中呈现。热图显示了为每个模型获得的具有最高平均绝对SHAP值的15个特征。源数据作为源数据文件提供。

混杂评估
作者使用二维t分布随机邻居嵌入（tSNE）来评估疾病状态与某些形式的元数据之间是否存在混杂关系。使用这种方法，作者观察到用于测试仅MRI模型的八个队列中没有明显的后处理MRI嵌入聚类（图2a，b）。在NACC队列中，作者还没有观察到基于个别阿尔茨海默病研究中心（ADRC，图2c，d）或扫描仪制造商（图2e，f）的明显聚类。相关地，尽管CNN隐藏层激活的tSNE分析确实产生了NACC数据点的聚类（图2b），鉴于选择NACC作为作者的模型训练队列，这是一个预期的现象。否则，由于特定的ADRC（图2d）或扫描仪制造商（图2f），作者发现隐藏层激活没有明显的嵌入聚合。最后，从NACC队列计算的互信息评分（MIS）表明特定扫描仪制造商（MIS=0.010，图2g）和ADRC（MIS=0.065，图2h）。

深度学习模型性能
作者观察到，融合模型在一系列临床诊断任务中为NC、MCI、AD和nADD提供了最准确的认知状态分类（表2）。作者发现在NACC测试集（图3a，第1行）和外部验证集（OASIS；图3b）之间，COGNC任务模型性能很强大，如接收者操作特征（AUC）曲线下的面积分别为0.945[95%置信区间（CI）：0.939，0.951]和0.959[CI：0.955，0.963]。精确度-召回（AP）曲线下的面积也观察到类似的数值，分别为0.946[CI:0.940，0.952]和0.969[CI:0.964，0.974]。AUC和AP性能之间的这种对应关系支持对跨数据集的类不平衡的稳健性。在COGDE任务中，也看到了类似的结果，因为融合模型产生了各自的AUC和AP分数，分别为0.971[CI:0.966，0.976]/0.917[CI:0.906，0.928]（图3a，第2行），在NACC数据集中的AUC和AP分别为0.971[CI:0.969，0.973]/0.959[CI:0.957，0.961]（图3b，第2行）。相反，在NACC数据集中，分类性能略有下降，AUC/AP值分别为0.773[CI：0.712，0.834]/0.938[CI：0.918，0.958]（图3a，第3行），在OASIS数据集中为0.773[CI：0.732，0.814]/0.965[CI：0.956，0.974]（图3b，第3行）。
相对于融合模型，作者观察到在仅MRI模型中跨分类的性能适度下降。对于COGNC任务，仅MRI框架产生的AUC和AP得分为0.844[CI:0.832，0.856]/0.830[CI:0.810，0.850]（NACC）和0.846[CI:0.840，0.852]/0.890[CI:0.884，0.896]（OASIS）。在COGDE任务上，模型结果具有可比性，其中仅MRI模型的AUC和AP得分分别为0.869[CI:0.850，0.888]/0.712[CI:0.672，0.752]（NACC）和0.858[CI:0.854，0.862]/0.772[CI:0.763，0.781]（OASIS）。对于ADD任务，仅MRI模型的结果与融合模型的结果大致相当，分别给出0.766[CI:0.734，0.798]/0.934[CI:0.917，0.951]的AUC和AP分数（NACC）和0.694[CI:0.659，0.729]/0.942[CI:0.931，0.953]（OASIS）。
有趣的是，作者注意到非成像模型通常会产生与融合模型和仅MRI模型相似的结果。具体来说，为COGNC任务训练的CatBoost模型给出的AUC和AP值为0.936[CI:0.929，0.943]/0.936[CI:0.930，0.942]（NACC），以及0.959[CI:0.957，0.961]/0.972[CI：0.970，0.974]（OASIS）。COGDE任务的结果依然强劲，AUC/PR为0.962[CI:0.957，0.967]/0.907[0.893，0.921]（NACC）和0.971[CI:0.970，0.972]/0.955[CI:0.953，0.957]（OASIS）。对于ADD任务，非成像模型的AUC/PR分数分别为0.749[CI:0.691，0.807]/0.935[CI:0.919，0.951]（NACC）和0.689[CI:0.663，0.715]/0.947[CI:0.940，0.954]（OASIS）。

为了评估各种成像和非成像特征对分类结果的贡献，作者在COG（图3c）和使用融合模型的ADD预测任务（图3d）中计算了具有最高平均绝对SHAP值的15个特征。尽管MMSE分数是COG任务的主要判别特征，但从CNN模型得出的DEMO分数在预测认知状态方面排名第三。类似地，来自CNN的ALZ分数是解决ADD任务的最显着特征。有趣的是，当用各种其他机器学习分类器代替CatBoost模型代替融合模型时，特征的相对重要性基本保持不变（图3e，f）。这种一致性表明作者的预测框架对于模型架构的特定选择是稳健的，而是依赖于一组一致的临床特征来实现NC、MCI、AD和nADD类之间的区分。相关地，作者还观察到非成像和融合模型在各种输入特征组合中保持预测性能，显示了在信息可用性的差异中操作的灵活性。然而，重要的是，在所有的非影像学变量组合中，增加MRI衍生的DEMO和ALZ分数提高了4路分类性能。

图4.痴呆的神经影像学特征。a，b基于SHAP值的与结果最相关的大脑区域的图示。a和b中的第一列显示了在轴向、冠状和矢状平面上定向的模板MRI。在a中，第二、第三和第四列分别显示了来自CNN第二个卷积块的输入特征的SHAP值，这些值分别在所有患有NC、MCI和痴呆的NACC测试对象中平均。在b中，第二列和第三列分别显示了所有具有AD和nADD的NACC测试对象的平均SHAP值。c显示了从NACC测试数据获得的AD和nADD病例的脑区特异性SHAP值。小提琴图按每个叶组织，并按平均绝对SHAP值的降序排列。d，e分别与AD和nADD分类有关的大脑区域网络。作者选择了33个具有代表性的大脑区域进行矢状区域的图形分析和可视化，以及57个区域进行轴向分析。代表大脑区域的节点覆盖在二维大脑模板上，并根据加权程度确定大小。连接不同节点的线段的颜色表示相关性的符号，线段的粗细表示相关性的大小。必须注意的是，不是所有的节点都可以从矢状面或轴向面看到。

AD和非AD痴呆的神经影像学特征
模型预测的出处是通过CNN模型内隐藏层的像素化SHAP映射来可视化的。然后将SHAP矩阵与每个受试者MRI中的物理位置相关联，以显示与从NC到痴呆的每个认知衰退阶段有关的明显的脑区（图4a）。这种方法允许神经解剖学风险映射来区分与AD相关的区域与nADD相关的区域（图4b）。事实上，代表疾病风险的彩色图直接叠加在源自传统MRI扫描的解剖图谱上，有助于深度学习模型的可解释性。此外，SHAP派生表示的独特性使作者能够观察到特定于每个感兴趣的结果的疾病提示区域。

SHAP的一个关键特征是大脑内的单个体素或子区域可以有助于准确预测一个或多个类别标签。例如，在NC参与者的海马区SHAP值为负值，但在痴呆症参与者中为正值，这强调了海马体在记忆功能中的公认作用。此外，在海马区域内观察到AD的SHAP值呈阳性，nADD病例的SHAP值呈阴性，表明海马萎缩与AD相关的病因直接成比例。根据其对分割的大脑区域的重要性排序的SHAP值也进一步证实了海马的作用及其与痴呆预测的关系，特别是在AD的情况下（图4c），以及nADD案例。在nADD的情况下，其他大脑区域（如侧脑室和额叶）的作用也很明显。显然，基于SHAP的网络分析揭示了大脑区域之间的成对关系，这些关系同时有助于指示AD的模式（图4d）。该分析表明的一组大脑网络也表明AD和nADD之间的结构变化存在显着差异（图4e）。

神经病理学验证
除了将隐藏层SHAP值映射到原始神经影像之外，深度学习预测与神经病理学数据的相关性进一步验证了作者的建模方法。定性地，作者观察到COG任务的高SHAP评分区域与尸检获得的区域特异性神经病理学评分相关（图5a）。同样，这些人的区域神经病理学变化的严重程度与作者使用Spearman等级相关检验从CNN得出的区域认知风险评分显示出中度到高度的一致性。值得注意的是，最强的相关性似乎发生在受AD病理学影响的区域，例如颞叶、杏仁核、海马和海马旁回（图5b）。使用单向方差分析检验，作者也拒绝了半定量神经病理评分组（0-3）之间的DEMO评分没有显著差异的零假设，置信度为0.95，包括全球ABC严重程度评分Aβ的Thal阶段（AscoreF检验：F（3，51）=3.665，p =1.813e-2），Braak和Braak用于神经原纤维缠结（NFT）（BscoreF检验：F（3，102）=11.528，p =1.432e-6）和CERAD神经炎斑块评分（CscoreF检验：F（3，103）=4.924，p =3.088e-3）（图5c）。作者使用Tukey’s程序进一步进行了事后测试，以比较DEMO分数的成对组均值，观察到神经退行性研究结果的最高和最低负担的个体之间分别有一致的显著差异。值得注意的是，作者还观察到ALZ评分随半定量神经病理学评分的增加趋势（图5d）。

图5.神经病理学验证。作者将模型结果与NACC、ADNI和FHS队列（n =110）的尸检参与者的神经病理学严重程度的区域ABC评分相关联。a来自阿尔茨海默病神经影像学倡议（ADNI）数据集的示例案例以矢状、轴向和冠状视图显示。从第二个卷积块得出的SHAP值和神经病理ABC评分被映射到尸检时测量的脑区。从视觉上看，无论从哪个隐藏层得出的SHAP值，在解剖学映射的SHAP值之间都有很高的一致性。在颞叶内观察到SHAP值和神经原纤维缠结（NFT）评分之间的一致性。b热图显示了来自第二卷积层输入特征的群体平均SHAP值与大脑各区域的染色剂特异性ABC分数之间的Spearman相关性。在海马/副海马、杏仁核和颞回等几个众所周知的受影响区域，SHAP值和神经病理变化之间有很强的正相关关系。c蜂巢图与上覆的盒须图表示ABC系统子分数（横轴）与模型预测的认知分数（纵轴）的分布。显示的数据点代表来自ADNI、NACC和FHS的一组参与者，他们的神经病理学报告可从尸检中获得。每个符号代表一个研究参与者，方框以中位数为中心并延伸到四分位间距（IQR），而底部和顶部的胡须分别代表第1和第3个四分位数-/+1.5 x IQR。作者将p <0.05表示为*，p <0.001为**，p <0.0001为***，基于事后Tukey检验。d显示神经病理学评分分布与模型预测AD概率的热图。这里，地图中的每一列代表一个独特的个体，其沿水平轴的位置是根据深度学习模型的AD风险的降序函数。覆盖的阴影图案代表数据集（ADNI、NACC和FHS），每个人都从中抽取。

图 6. 专家级验证。a对于COGNC任务（第1行），使用NACC数据集中的随机病例子集（n = 100），将委员会认证的神经学家（n = 17）的诊断准确性与深度学习模型的性能进行比较。个体临床医生的指标与训练模型的ROC和PR曲线相关。个人临床医生的表现由蓝色加号表示，平均临床医生表现以及误差条由ROC和PR曲线上的绿色加号表示。平均ROC/PR曲线和标准偏差分别显示为粗线和阴影区域。还显示了成对Cohen的kappa统计量的热图，以证明临床医生队列中的评分者间一致性。对于COGDE任务（第2行）、ROC、PR和评估者协议图形以相同的方式与认证的神经科医生进行了比较。对于这些任务，所有神经科医生都可以访问多模态患者数据，包括MRI、人口统计、病史、功能评估和神经心理学测试。相同的数据被用作训练深度学习模型的输入。b为了验证ADD任务，作者将NACC队列中的痴呆病例的随机子集（n =50）提供给神经放射科医师团队（n =7），他们将AD与其他病因引起的痴呆（nADD）分类。如上所述，医师队列的诊断准确性与使用ROC和PR曲线的模型性能进行比较。用于可视化模型和临床医生表现的图形约定如上文a中所述，并且再次显示成对的Cohen的kappa值以证明评估者之间的一致性。c从选定的大脑区域平均的第二个卷积层的SHAP值显示为与神经放射科医生分配的萎缩分数相对应的图。橙色和蓝色点（以及回归线和95%CI）分别代表左右半球。Spearman相关系数和相应的双尾p值也显示出来，并证明SHAP评分与临床医生指定的区域萎缩严重程度之间具有统计学意义的比例。

专家级验证
最后，为了给作者的建模方法提供临床基准，招募了神经科医生和神经放射科医生对NACC病例的一个子集执行诊断任务。神经科医生和神经放射科医生的方法和表现表明不同临床实践之间存在差异，使用所有任务的成对kappa（κ）评分评估的评分者间一致性适中。特别是在神经科医生中，作者观察到COGNC任务的平均κ=0.600（图6a，第1行）和COGDE任务的平均κ=0.601（图6a，第2行）。在执行ADD任务的神经放射科医生中，作者发现平均κ=0.292（图6b）。在NC、MCI、AD和nADD的整体4分类中，作者观察到融合模型的准确度（平均值：0.558，95%CI：[0.482，0.634]）达到了神经科医生的准确度（平均值：0.565，95%CI：[0.529，0.601]）。有趣的是，非成像CatBoost模型（平均值：0.544，95%CI：[0.517，0.571]）实现了类似水平的4类准确度，但不是仅MRI模型（平均值：0.412，95%CI：[0.380，0.444]）。然而，仅MRI模型确实在ADD任务中的诊断准确性（平均值：0.692，95%CI：[0.649，0.735]）比神经放射科医生（平均值：0.566，95%CI：[0.516，0.616]）有适度的提高（图6b）。区域SHAP平均值与临床分级萎缩严重程度之间的统计学显着相关性表明CNN特征与广为人知的痴呆标志物之间存在联系（图6c）。

讨论
在这项工作中，作者提出了一系列机器学习模型，这些模型可以处理多模态临床数据以准确地对AD进行鉴别诊断。这些框架可以连续实现多个诊断步骤，首先根据整体认知状态（NC、MCI和DE）对人进行划分，然后将AD的可能病例与nADD的病例分开。重要的是，作者的模型能够灵活地组合成像和非成像数据，并且它们的性能在具有多种认知状态和痴呆亚型的多个数据集中得到了很好的推广。

作者的融合模型在诊断任务中展示了最高的整体分类准确度，取得的结果与从多个机构招募来完成临床模拟的神经科医生相当。值得注意的是，在NACC测试集和OASIS外部验证集中都观察到了相似的性能水平。作者的仅MRI模型也超过了执业神经放射科医生的平均诊断准确性，并在另外6个外部队列（ADNI、AIBL、FHS、NIFD、PPMI和LBDSU）中保持了相似的性能水平，从而表明诊断能力不偏向于任何单一数据源。还值得注意的是，DEMO和ALZ分数具有很强的分析重要性，就像用于痴呆诊断的传统信息一样。例如，在ADD任务中，SHAP分析显示ALZ评分在准确预测疾病状态方面比标准临床实践中使用的关键人口统计学和神经心理学测试变量（例如年龄、性别和MMSE评分）具有更大的影响。这些源自CNN的分数在用于其他机器学习分类器时保持相同的重要性水平，这表明在数字健康工作流程中具有广泛的实用性。

此外，事后分析表明，机器学习模型的性能是建立在痴呆症相关的神经变性的既定模式之上的。网络分析表明AD和nADD人群之间SHAP值的区域分布不同，这在海马、杏仁核和颞叶等区域最为明显。这些区域的SHAP值也与神经放射科医生的萎缩评级有很强的相关性。尽管最近的工作表明，可解释的机器学习方法可以识别成像数据中的虚假相关性，作者认为有能力将区域SHAP分布与解剖学萎缩以及Aβ淀粉样蛋白、神经纤维缠结和神经元斑块的半定量评分联系起来，使建模结果与死后诊断的金标准相联系。更广泛地说，作者的方法展示了一种将深度学习方法与医疗保健中有效的临床证据相融合的手段。

作者的工作建立在先前构建痴呆诊断自动化系统的努力之上。此前，作者开发并在外部验证了一种可解释的深度学习方法，使用MRI和临床变量的多模态输入对AD进行分类。尽管这种方法提供了一个新颖的框架，但它依赖于将个体区分为二元结果的人为场景，这简化了现实世界环境的复杂性。作者目前的工作通过模仿记忆诊所设置并考虑整个认知范围内的案例来扩展这个框架。尽管许多团体已经接受了使用深度学习进行nADD诊断的挑战，甚至这些任务也被构建为疾病亚型之间的简单二元分类。鉴于医学实践很少减少到两种病理之间的选择，在深度学习模型可以被吹捧为临床决策支持的辅助工具之前，需要能够更充分地复制专家鉴别诊断过程的集成模型。作者的结果展示了一种使用深度学习扩展诊断任务范围的策略，同时还确保自动化系统的预测仍然基于已建立的医学知识。

有趣的是，应该注意的是，仅非成像模型的性能就接近了融合模型的性能。然而，包含神经影像数据对于通过临床标准（例如，与死后神经病理学报告的互相关）验证作者的建模结果至关重要。这种验证性数据源不容易与非成像模型同化，因此限制了将其性能独立地建立在非计算标准中的能力。因此，作者并没有将神经影像学对诊断准确性的适度贡献视为一个缺点，而是认为作者的结果提出了一条道路，即平衡对透明度的要求和使用常规收集的临床数据建立模型的需要。像作者这样的模型可以在资源丰富的领域得到验证，在这些领域，先进的神经影像学有助于可解释性。由于医生可能难以将医疗决策委托给人工智能中的黑盒模型，将机器学习结果建立在已建立的痴呆神经科学中可能有助于促进临床应用。尽管如此，作者注意到非成像模型可能最适合在全科医生（GP）和资源匮乏的环境中部署。

在功能上，作者还认为，作者的方法提供的输入灵活性是痴呆症多个阶段临床采用的必要前提。鉴于亚组分析表明对训练数据的多种组合（即人口统计、临床变量和神经心理学测试）具有显着的4种诊断能力，作者的整体框架可能适用于临床实践的许多变化，而无需提供者显着改变他们的典型工作流程。例如，全科医生经常在有或没有直接订购MRI测试的情况下进行认知筛查，而记忆专家通常会扩大测试范围，包括成像和高级神经心理学测试。这种沿着临床护理连续体整合的能力，从初级护理到三级护理，使作者的深度学习解决方案能够通过提供筛查和下游诊断的工具来解决综合痴呆症护理中的两级问题。

作者的研究有一些局限性。首先，在混合性痴呆的情况下，只要出现这种情况，本模型就会默认诊断为AD，从而将单一诊断归因于患有多种合并症的参与者。鉴于混合性痴呆症相当普遍，未来的工作可能包括多标签分类的可能性，该分类可能允许识别同一个体内同时发生的痴呆症状况（例如，LBD和AD、VD和AD）。作者的队列也没有包含任何确诊的非典型AD病例，估计影响大约6%的老年发病病例和三分之一的早发性疾病患者。还必须注意，MCI本身就是一个广泛的类别，包括可能会或可能不会发展为痴呆症的人。当在许多队列中获得相关数据时，未来的调查可能包括记忆删除和非记忆删除的MCI受试者，以了解患有前驱AD的人的不同特征。作者还承认，研究数据主要来自主要关注AD的流行病学研究，并且优化这种疾病识别的变量实际上可能有损于某些nADD的准确诊断。例如，作者注意到融合模型在区分AD和非帕金森病痴呆症（如FTD和VD）方面的表现略低于仅有MRI的模型。作者推测某些形式的神经心理学测试，例如MMSE，可能会使预测偏向于更常见的痴呆形式，例如AD。尽管作者使用来自基于人群的队列（即FHS）的数据验证了各种模型，但多模式分析框架有可能降低不太常见的痴呆症的诊断准确性。未来的建模工作可能会通过包括针对这些疾病的诊断量身定制的额外临床数据来优化这些疾病的识别：例如，包括运动检查以评估帕金森病、血管损伤的FLAIR图像或LBD的认知波动和睡眠行为异常。最后，虽然作者已经将模型与个别神经科医生和神经放射科医生的表现进行了比较，但未来的研究可能会考虑与合作临床医生团队的共识审查进行比较。

总之，作者的可解释的多模态深度学习框架能够从常规收集的临床数据中获得高准确度的痴呆状态特征，这与独立队列的数据、神经病理学结果和专家驱动的评估进行了验证。此外，作者的方法提供了一种解决方案，可用于不同的实践类型，从全科医生到三级护理中心的专业记忆诊所。作者设想在记忆诊所进行一项前瞻性观察研究，以确认作者的模型能够在与参与痴呆护理的临床专家相同的水平上评估痴呆状态。如果在这种头对头比较中得到证实，作者的方法有可能扩大机器学习的范围以进行AD检测和管理，并最终成为医疗保健从业者的辅助性筛选工具。

方法
研究人群
该研究免于当地机构审查委员会的批准，因为所有神经影像学和临床数据都是应外部研究中心的要求以去识别格式获得的，这些研究中心确保遵守道德准则并获得所有参与者的知情同意。没有向参与者提供任何补偿。

作者收集了来自8个队列（表1）的人口统计学、病史、神经心理学测试和功能评估以及磁共振成像（MRI）扫描，在评估纳入标准后共有8916名参与者。认知正常（NC）4550人，轻度认知障碍（MCI）2412人，阿尔茨海默病痴呆（AD）1606人，其他原因痴呆348人。这八个队列包括阿尔茨海默病神经影像学倡议（ADNI）数据集（n= 1821）、国家阿尔茨海默病协调中心（NACC）数据集（n= 4822），额颞叶变性神经影像学倡议（NIFD）数据集（n =253），帕金森病进展标志物倡议（PPMI）数据集（n =198），澳大利亚成像、生物标志物和生活方式旗舰老化研究（AIBL）数据集（n =661），开放存取系列成像研究-3（OASIS）数据集（n =666），弗雷明汉心脏研究（FHS）数据集（n =313），以及由斯坦福大学路易体痴呆卓越中心（LBDSU）维护的内部数据（n =182）。

作者根据临床诊断对参与者进行了标记。根据每个研究队列提供的临床诊断对受试者进行标记。作者在没有进一步考虑潜在病因的情况下保留MCI诊断，以模拟真实的MCI表现谱。对于有记录的痴呆和阿尔茨海默病痴呆的初步诊断的任何受试者，无论是否存在其他痴呆合并症，都会分配AD标签。患有痴呆但未确诊AD诊断的受试者被标记为nADD。值得注意的是，作者选择将所有nADD子类型合并到一个单一标签中，因为在任意数量的预测任务中细分模型训练存在降低整体诊断准确性的风险（AD，n =1606）、路易体痴呆（LBD，n =63）、额颞叶痴呆（FTD，n =193）、血管性痴呆（VD，n =21）和其他原因的痴呆（n =237）。

数据纳入标准
每个队列的受试者如果在正式记录的诊断后6个月内至少有一次T1加权容积的MRI扫描，就有资格纳入研究。作者还排除了所有少于60个切片的MRI扫描。对于在6个月内有多个MRI和诊断记录的受试者，作者选择了最接近的神经影像学和诊断标签配对。因此，每个受试者只使用了一个MRI。对于NACC和OASIS队列，作者进一步查询了与人口统计、既往病史、神经心理学测试和功能评估相关的所有可用变量。作者没有利用非影像学特征的可用性来排除这些队列中的个体，并对任何缺失的数据字段使用K-近邻归纳法。

MRI协调和预处理
为了协调群组之间的神经影像数据，作者开发了一系列预处理操作，以相同的方式应用于作者研究中使用的所有MRI。该管道大致包括注册到标准MNI-152模板的两个阶段。作者将阶段1描述如下：
重新配置扫描轴以匹配MNI-152空间的标准方向。
使用自动阈值技术，在原始MRI中识别出仅包含脑组织区域的3D感兴趣体积。
感兴趣的体积被剥去颅骨以分离大脑像素。
进行了颅骨剥离大脑到标准MNI-152模板的初步线性配准。这一步近似于从原始MRI空间到MNI-152空间的线性变换矩阵。
第2阶段旨在微调线性配准的质量并将大脑分割成离散区域。这些目标是通过以下步骤实现的：
从第1阶段的线性配准计算的变换矩阵应用于原始MRI扫描。
在应用从感兴趣的初始体积计算的线性配准后，再次进行颅骨剥离，以将脑组织与完全配准的MRI扫描分离。
再次应用线性配准以减轻对MNI-152空间的任何错位。
应用偏置场校正来解释磁场不均匀性。
通过将Hammersmith成人大脑图谱的非线性扭曲应用于后处理的MRI来分割大脑。
作者的MRI处理流程的所有步骤都是使用FMRIB软件库v6.0 （FSL）（Analysis Group，Oxford University）进行的。整个预处理工作流程的灵感来自英国生物银行的协调协议（https://git.fmrib.ox.ac.uk/falmagro/UK_biobank_pipeline_v_1）。作者在每次扫描时手动检查MRI管道的结果，以过滤掉质量差或处理伪影严重的病例。

MRI协调性评估
作者通过使用t分布随机邻域嵌入（tSNE）算法对数据进行聚类，进一步评估了作者的图像协调流程。作者执行此程序是为了确保（i）所有模型的输入数据没有站点、扫描仪和队列特定的偏差，以及（ii）预测模型无法学习此类偏差。为了完成（i），作者使用来自后处理的8x下采样MRI扫描的像素值执行tSNE。对于（ii），作者使用从为作者的预测任务开发的卷积神经网络（CNN）的倒数第二层派生的隐藏层激活来执行tSNE（参见下面的“模型开发”）。对于NACC数据集，作者评估了基于特定阿尔茨海默病研究中心（ADRC）和扫描仪制造商（即西门子、飞利浦和通用电气）的下采样MRI和隐藏层激活的聚类。作者还根据特定队列（即NACC、ADNI、FHS等）使用整个数据集中使用所有可用的MRI，重复tSNE分析。作者还计算了NACC数据集中ADRC ID、扫描仪品牌和诊断标签（NC、MCI、AD和nADD）之间的互信息分数（MIS）。该指标计算一组公共数据上两组标签之间的相似程度。与tSNE分析一样，MIS计算帮助作者排除了MRI数据中存在的混杂部位和扫描仪特定偏差。

非成像数据的协调
为了协调数据集中的非成像变量，作者首先调查了所有八个队列中的可用临床数据。作者专门检查了与人口统计、既往病史、神经心理学测试结果和功能评估相关的信息。在一系列临床特征中，作者发现NACC和OASIS数据集中的信息可用性最高。此外，鉴于NACC和OASIS队列遵循统一数据集（UDS）指南，作者能够利用UDS 2.0和3.0版本之间的有效转换量表，将所有认知测量结果统一到一个共同的量表上。

预测框架概述
作者开发了预测模型来满足两个主要目标。第一个是作者指定的COG任务，是根据神经影像学来预测每个参与者的整体认知障碍程度（NC、MCI或痴呆[DE]）。为了实现这一目标，作者预测了一个连续的0-2分数（NC：0，MCI：1，DE：2），作者将其称为痴呆模型（DEMO）分数。值得注意的是，COG任务也可以被视为由三个独立的子任务组成：（i）将NC与MCI和DE分离（COGNC任务），（ii）将MCI与NC和DE分离（COGMCI任务），以及（iii）DE与NC和MCI的分离（COGDE任务）。第二个目标，作者指定为ADD任务，是预测参与者是否诊断为AD或nADD，因为他们已经在COG任务中被预测为DE。为了便于参考，作者将一个人进行AD诊断的概率表示为ALZheimer（ALZ）评分。在依次完成COG和ADD任务之后，作者能够成功地将AD参与者与NC、MCI和nADD受试者分开。

仅MRI模型
作者使用后处理的体积MRI作为输入并训练了一个CNN模型。为了在COG和ADD任务之间传输信息，作者训练了一组通用的卷积块作为通用特征提取器。然后通过将各自的全连接层附加到共享的卷积主干上来分别计算DEMO和ALZ分数。作者将COG任务作为一个回归问题，使用DEMO分数和现有认知标签之间的均方误差损失。作者使用参考AD标签和ALZ分数之间的二元交叉熵损失，将AD任务作为一个分类问题来进行。只用MRI的模型是用NACC数据集训练的，并在所有其他队列中进行了验证。为了便于表述结果，作者汇集了所有外部队列（ADNI、AIBL、FHS、LBDSU、NIFD、OASIS和PPMI）的数据，并计算了所有模型性能指标。

非成像模型
除了仅MRI模型外，作者还使用NACC和OASIS数据集之间共享的所有可用非成像变量开发了一系列传统机器学习分类器。作者首先汇编了人口统计学、既往病史、神经心理学测试结果和功能评估的向量。作者通过它们的均值和标准差以及one-hot编码的分类变量来缩放连续变量。然后将这些非成像数据向量作为输入传递给CatBoost、XGBoost、随机森林、决策树、多层感知器、支持向量机和K-最近邻算法。与仅MRI模型一样，通过分别计算DEMO和ALZ分数，依次训练每个非成像模型以完成COG和ADD任务。作者最终发现，CatBoost模型在每个接收器操作特征曲线下面积（AUC）和精确召回曲线下面积（AP）指标上产生了最佳的整体性能。因此，作者选择该算法作为后续分析的基础。

为了模拟临床神经病学环境，作者使用常规收集用于痴呆诊断的数据开发了一个非成像模型。虽然遗传状态（APOEε4等位基因）或脑脊液测量值等某些特征具有很大的预测价值，但作者故意不将它们包括在模型开发中，因为它们不是痴呆症标准临床检查的一部分。

为了推断非影像数据集的完整性影响模型性能的程度，作者使用临床数据变量的不同组合进行了多次实验。将以下组合输入CatBoost算法进行比较：（1）单独的人口统计学特征，（2）人口统计学特征和神经心理学测试，（3）人口统计学特征和功能评估，（4）人口统计学特征和既往病史，（5）人口学特征、神经心理学测试和功能评估，（6）人口学特征、神经心理学测试和既往病史，以及（7）人口学特征、神经心理学测试、既往病史和功能评估。

融合模型
为了最好地利用可用数据的各个方面，作者将MRI和非成像特征结合到一个通用的“融合”模型中，用于COG和ADD任务。数据源的组合是通过将来自仅MRI模型的DEMO和ALZ评分连接到临床变量列表来完成的。然后将得到的向量作为输入提供给如上所述的传统机器学习分类器。基于AUC和AP指标，作者最终发现与CatBoost模型相关联的CNN在区分不同认知类别方面的性能最高；因此，CNN和CatBoost模型的组合被用作所有进一步实验的最终融合模型。与使用非成像模型的程序类似，作者研究了MRI特征如何与人口统计学、既往病史、神经心理学和功能评估变量的不同子集互动。与非影像学模型一样，鉴于其他队列的非影像学数据有限，融合模型的开发和验证只限于NACC和OASIS。

训练策略和数据拆分
作者使用交叉验证在NACC数据集上训练了所有模型。NACC被随机分成5个大小相等的倍数，NC、MCI、AD和nADD病例的比例恒定。作者在5折中的3折上训练模型，并分别使用剩余的两折进行验证和测试。每个调整后的模型还在外部数据集中的全部可用案例上进行了测试。所有模型的性能指标均报告为五次交叉验证的平均值以及标准差和95%置信区间。在培训之前，作者还在NACC中预留了两个专门的队列，用于神经病理学验证和与临床医生的正面比较。在前一种情况下，作者确定了74名受试者，他们在MRI扫描后的2年内可以获得尸检神经病理学数据。在后者中，作者随机选择了100个年龄和性别匹配的患者组（每个诊断类别25个），为临床专家提供模拟病例。

SHAP分析
SHAP是一个用于解释机器学习模型的统一框架，它通过对预测任务的所有可能的边际贡献进行平均来估计每个特征的贡献。虽然最初是为博弈论应用而开发的48，但这种方法可用于基于深度学习的计算机视觉，将每个图像体素或网络节点视为一个独特的特征。通过将SHAP值分配给特定的体素或将内部网络节点映射到本地成像空间，可以在输入的MRI上构建热图。

尽管存在多种估计SHAP值的方法，但作者实现了DeepLIFT算法的修改版本，该算法通过估计反向传播期间模型激活相对于标准参考的差异来计算SHAP。作者通过整合训练MRI的 “背景 ”来建立这个参考，以估计整个数据集的预期值。对于每个测试例子，然后计算整个CNN模型以及特定内部层的SHAP值。两组SHAP值分别为COG和ADD任务进行了估计。对整个模型计算出的SHAP值直接映射到本地MRI像素，而对内部层计算出的SHAP值则通过近邻插值转换到本地成像空间。

网络分析
作者试图对SHAP值进行逐个区域的图形分析，以确定是否可以证明ADD和nADD群体的一致差异。为了可视化不同大脑区域的SHAP分数的关系，作者创建了大脑内区域间SHAP相关性的图形表示。作者通过根据它们在登记MRI中的位置对体素SHAP值进行平均来得出特定区域的分数。随后，作者构建了非循环图，其中节点被定义为特定的大脑区域，边缘被定义为由Spearman等级相关和Pearson相关系数分别测量的区域间相关性。为了便于可视化和传达结构信息，作者手动将节点与大脑的放射投影对齐。
一旦计算出每对节点之间的相关值，作者就过滤掉p值大于0.05的边，并根据绝对相关值对剩余边进行排序。作者仅使用顶部N条边（N =100用于矢状视图，N =200用于轴向视图）作图。作者用颜色来表示相关性的符号，用粗细来表示相关性的大小。

神经病理学验证
神经病理学评估被认为是确认神经退行性疾病的存在和严重程度的金标准。作者通过比较模型得出的分数的空间分布与来自NACC、FHS和ADNI研究队列的死后神经病理数据来验证模型识别痴呆症高风险区域的能力，这些数据来自美国国家老龄化研究所阿尔茨海默氏协会的AD神经病理评估指南。来自NACC（n = 74）、ADNI（n = 25）和FHS（n = 11）的110名参与者符合研究纳入标准，在死亡后2年内进行了MRI扫描，并有神经病理学数据，被纳入神经病理学验证。数据按照美国国家老龄化研究所制定的NACC第10版神经病理学数据表格的格式进行统一。AD的神经病理病变（即淀粉样β沉积（Aβ）、神经纤维缠结（NFTs）和神经元斑块（NPs））在内丘、海马、额叶、颞叶、顶叶和枕叶皮层进行了评估。这些区域是基于为AD的标准化神经病理学评估而提出的，各种病变的严重程度被分为四个半定量的分数类别（0=无，1=轻度，2=中度，3=严重）。根据NIA-AA协议，神经病理变化的严重程度采用全球 "ABC "评分，其中包括Thal相法对淀粉样β沉积的组织病理学评估：（A），神经纤维缠结的分期（B）银基组织化学，或Phospho-tau免疫组织化学，以及神经纤维斑块的评分（C）。Spearman’s rank correlation被用来将DEMO得分预测与A、B、C得分相关联，方差分析和Tukey’s检验被用来评估DEMO平均得分在不同级别的得分类别中的差异。最后，来自ADNI（n = 25）和FHS（n = 11）的参与者的一个子集有区域半定量的Aβ、NFT和NP得分，这也被用来验证模型的预测。

专家级验证
作者试图用参与照顾痴呆症患者的临床医生的诊断能力来测试模型预测。作者招募了一批国际执业的神经科医生和神经放射科医生，使用NACC病例的子集参与模拟诊断任务（见上文 “训练策略和数据分割”）。向神经科医生提供了100个病例，其中包括成像数据（T1加权脑MRI扫描）和非成像数据（人口统计学、病史、神经心理学测试和功能评估），并要求他们提供NC、MCI、AD和nADD的诊断印象。值得注意的是，鉴于作者的框架只对内部确定为痴呆的病人进行预测，该模型没有直接与神经科医生进行ADD任务的比较。由于这种计算上的预选，与必须对NC、MCI、AD和nADD进行鉴别诊断的神经科医生进行一致的人群比较是不可行的。神经放射学家获得了50个已知DE病例的成像数据（T1加权脑MRI扫描）、年龄和性别，然后要求他们提供AD或nADD的诊断印象。对于每个病例，神经放射学专家还回答了一份问卷，对大脑每个亚区的萎缩程度进行评分，评分标准为0到4，数值越高表示萎缩程度越大。对于这两组临床医生，作者还使用Cohen’s kappa（κ）计算了注释者之间的一致性。此外，为了将机器学习模型与神经心理学评估进行比较，作者使用NACC数据集中所有可能的神经心理学测试分数的整数分界点进行了COGNC、COGDE和ADD任务。按照这种方法，作者对二元分类进行了简单的阈值处理。

性能指标
作者通过计算模型运行的平均值和标准差来展示性能。作者基于对NACC测试数据以及其他数据集的模型预测生成了接收者操作特征（ROC）和精确召回（PR）曲线。对于每条ROC和PR曲线，作者还计算了曲线下面积（AUC&AP）值。此外，作者计算了每组模型预测的敏感性、特异性、F1分数和Matthews相关系数。F1分数考虑了测试的精度和召回率，而MCC是对二进制分类器不同大小的数据集类的质量的平衡度量。作者还使用Cohen的kappa（κ）计算了注释者间一致性，即两位专家就诊断达成一致的次数之比。

统计分析
作者分别对连续变量和分类变量使用单向方差分析检验和χ2检验来评估研究队列中NC、MCI、AD和nADD组之间人口特征差异的总体水平。为了验证CNN模型，作者评估了AD神经病理学病变（即淀粉样蛋白β沉积物（Aβ）、神经原纤维缠结（NFT）和神经炎斑块（NPs））的半定量神经病理学评分的存在和严重程度是否反映CNN模型预测的DEMO分数。作者根据A、B和C评分对病变进行分层，并使用Spearman等级相关性来评估它们与DEMO评分的关系。接下来使用单向方差分析，作者评估了A、B和C分数的不同评分类别的平均DEMO分数的差异。作者使用Tukey-Kramer检验来确定评分类别（0-3）水平之间平均DEMO分数的成对统计显着差异。同样，为了分析SHAP值与已知的神经退行性疾病标志物之间的对应关系，作者将SHAP与放射科医生对萎缩的印象相关联。利用来自每个参与者的分割图，作者计算了50个给神经放射科医师的测试案例中的每一个的区域SHAP平均值，临床医生分配了0-4个区域萎缩量表。作者用双尾计算皮尔逊相关系数为了分析SHAP值与已知的神经退行性疾病标志物之间的对应关系，作者将SHAP与放射科医生对萎缩的印象相关联。利用来自每个参与者的分割图，作者计算了50个给神经放射科医师的测试案例中的每一个的区域SHAP平均值，临床医生分配了0-4个区域萎缩量表。作者用双尾计算皮尔逊相关系数为了分析SHAP值与已知的神经退行性疾病标志物之间的对应关系，作者将SHAP与放射科医生对萎缩的印象相关联。利用来自每个参与者的分割图，作者计算了50个给神经放射科医师的测试案例中的每一个的区域SHAP平均值，临床医生分配了0-4个区域萎缩量表。作者用双尾计算皮尔逊相关系数p值表示不相关系统产生Pearson相关系数的概率与已知与AD病理学有关的神经解剖区域中的观察值一样极端。所有统计分析均在0.05的显着性水平上进行。模型性能的置信区间是通过假设AUC和AP值在交叉验证实验中的正态分布来计算的，该实验使用具有4个自由度的t-student分布。

计算硬件和软件
作者在配备Intel i9 14核3.3GHz处理器和4个NVIDIA RTX 2080Ti GPU的计算工作站上处理了所有MRI和非成像数据。Python（版本3.7.7）用于软件开发。每个深度学习模型都是使用PyTorch（1.5.1版）开发的，绘图是使用Python库matplotlib（3.1.1版）生成的，numpy（1.18.1版）用于矢量化数值计算。其他用于支持数据分析的Python库包括pandas（版本1.0.3）、scipy（版本1.3.1）、tensorflow（版本1.14.0）、tensorboardX（版本1.9）、torchvision（版本0.6）和scikit-learn（版本0.22.1）。使用单个2080TiGPU，训练深度学习模型的平均运行时间为10小时，推理任务耗时不到一分钟。所有临床医生均使用3DSlicer（版本4.10.2）检查MRI（https://www.slicer.org/）并在REDCap（版本11.1.3）中记录印象。此外，使用SAS（9.4版）完成了神经病理学分析的统计数据。
参考文献：Multimodal deep learning for Alzheimer’s disease dementia assessment

Nature子刊：用于阿尔茨海默病痴呆评估的多模态深度学习模型

相关文章

Python 还原控制SCI论文算法系列1: 基于策略迭代的自适应最优控制器设计

简单回归分析方法———基于R

教你如何用R进行数据挖掘

使用 pyecharts 以及matplotlib分析猫眼哪吒影评

第3章(3.11～3.16节)模型细节/Kaggle实战【深度学习基础】--动手学深度学习【Tensorflow2.0版本】

等额本金和等额本息还款方式的差异分析

【跟着SCI学作图】MatplotlibSeaborn绘制散点密度图直方图

在processing中通过贝塞尔曲线作图