大模型被偷家?CNN结合多模态!

server/2025/2/13 23:46:57/

2025深度学习发论文&模型涨点之—— CNN+多模态

卷积神经网络是一种特殊类型的神经网络,其主要结构包括卷积层、池化层、全连接层和输出层。卷积层通过卷积操作学习图像的特征,池化层通过下采样操作减少参数数量,全连接层和输出层通过分类或回归来完成任务。

多模态学习是指在不同类型数据之间学习共享表示的过程。多模态数据可以是图像、文本、音频等,每种模态都有其特定的表示和特征。因此,在多模态学习中,我们需要设计一种能够处理不同模态数据并在不同模态之间共享知识的算法。

我整理了一些 CNN+多模态论文+代码】合集,需要的同学公人人人号【AI创新工场】自取。

论文精选

论文1:

Change Detection between Multimodal Remote Sensing Data Using Siamese CNN

使用孪生卷积神经网络进行多模态遥感数据的变化检测

方法

多模态数据转换:将3D激光扫描点云和2D影像转换为2.5D数字表面模型(DSM),进一步转换为2D灰度图像块。

孪生卷积神经网络(Siamese CNN):使用S-CNN架构,通过比较两个输入图像块的特征向量来检测变化。

预处理和数据增强:对图像块进行数据增强(如翻转和旋转),以平衡正负样本数量。

对象级变化检测:将检测到的变化图像块分组并验证为单个对象的变化,利用点云分割和归一化植被指数(nEGI)进行验证。

图片

创新点

多模态数据融合:提出了一种将3D激光扫描和2D影像融合的框架,解决了多模态数据特性差异带来的挑战。

孪生卷积神经网络的应用:首次将S-CNN应用于多模态遥感数据变化检测,能够有效区分真实变化和由数据误差引起的虚假变化。

性能提升:实验结果表明,该方法在变化检测任务中能够正确分类86.4%的图像块对,显著优于传统方法。

图片

论文2:

CNN‑Siam: multimodal siamese CNN‑based deep learning approach for drug‒drug interaction prediction

CNN‑Siam:基于多模态孪生卷积神经网络的药物-药物相互作用预测深度学习方法

方法

多模态数据表示:将药物的化学结构、靶点和酶信息通过一热编码和Jaccard相似性转换为特征向量。

孪生卷积神经网络(Siamese CNN):使用S-CNN架构,通过两个共享权重的CNN分支分别学习药物对的特征表示,并将结果输入到多层感知机中进行分类。

优化算法:结合RAdam和LookAhead优化算法,提高模型训练的稳定性和收敛速度。

损失函数:采用Focal Loss,重点关注难以分类的样本,提升模型对不平衡数据集的分类能力。

图片

创新点

多模态数据融合:通过S-CNN架构同时学习药物对的多模态信息,提升了特征表示的准确性。

优化算法的改进:使用RAdam和LookAhead优化算法,显著提升了模型的训练效率和性能。

性能提升:在基准数据集上,CNN-Siam的AUPR分数达到0.96,准确率达到92%,相比现有最佳方法(准确率为86%)有显著提升。

图片

论文3:

Multimodal Convolutional Neural Networks for Matching Image and Sentence

用于匹配图像和句子的多模态卷积神经网络

方法

图像和句子的卷积神经网络(CNN):使用图像CNN编码图像内容,匹配CNN建模图像和句子的联合表示。

多模态匹配:通过不同层次(单词、短语、句子)的语义片段与图像的交互,学习图像和句子之间的匹配关系。

多层感知机(MLP):将匹配CNN生成的联合表示输入到MLP中,生成最终的匹配分数。

多模态卷积层:设计了多模态卷积层,使图像与句子的语义片段在不同层次上进行交互。

图片

创新点

多模态匹配的层次化处理:通过单词、短语和句子三个层次的匹配关系,全面捕捉图像和句子之间的语义关联。

性能提升:在Flickr8K和Flickr30K数据集上,m-CNN模型显著优于现有最佳方法。例如,在Flickr30K数据集上,m-CNNENS(使用VGG初始化)的R@10指标达到74.9%,相比其他方法有显著提升。

卷积架构的应用:首次将卷积架构应用于图像和句子匹配问题,为多模态匹配提供了更强大的表示能力。

图片


http://www.ppmy.cn/server/167462.html

相关文章

DeepSeek服务器繁忙之谜:原因与解决方案

文章来源于百家号:GPU服务器厂家 DeepSeek,作为一款备受欢迎的人工智能平台,凭借其强大的功能和免费开放的策略,吸引了大量普通用户和开发者。然而,许多用户在使用过程中经常遇到“服务器繁忙,请稍后再试”…

IPC 共享通俗讲解及其安全风险

IPC 共享,指的是进程间通信(IPC,Inter-Process Communication)中的数据共享方式。简单来说,它允许多个进程(程序)相互交换信息或共享数据。 为什么需要 IPC 共享? 在计算机中&#…

深度学习-利用预训练的 ResNet 和 DenseNet 模型进行医学影像诊断

下面将分别展示基于 PyTorch 框架,利用预训练的 ResNet 和 DenseNet 模型进行医学影像诊断以提高准确率的代码实现。以肺炎 X 光影像诊断为例,假设数据集已经按照训练集和测试集划分好,每个类别存放在不同文件夹中。 1. 安装必要的库 pip i…

Ai无限免费生成高质量ppt教程(deepseek+kimi)

第一步:打开deepseek官网(DeepSeek) 1.如果deepseek官网网络繁忙,解决方案如下: (1)超算互联网:超算互联网 (2)秘塔AI搜索:https://metaso.cn/(开启长思考) (3)纳米ai:https://bot.n.cn/ (4)使用easychat官网&#xff…

蓝桥杯算法日记|贪心、双指针

3412 545 2928 2128 贪心学习总结: 1、一般经常用到sort(a,an);【a[n]】排序,可以给整数排,也可以给字符串按照字典序排序 2、每次选最优 双指针 有序数组、字符串、二分查找、数字之和、反转字…

Docker与容器交互——attach和exec

阅读《Docker 从入门到实践》时,读到“进入容器”这一章节,有两个主要 的命令,分别是: docker attach docker exec 其中提到一句话: 注意: 如果从这个 stdin 中 exit,会导致容器的停止。 …

[MFC] 使用控件

介绍如何使用控件,以及如何获取控件中的数值 check Box 添加点击事件,即选中和取消选中触发的事件 第一种方式是按照如下方式第二种方式是直接双击点击进去 void CMFCApplication1Dlg::OnBnClickedCheckSun() {// TODO: 在此添加控件通知处理程序代…

蓝桥杯备考:贪心算法简介

贪心算法就是企图用局部最优的策略找出全局最优步骤就是1,把解决问题的过程分成若干步。2,每一步都选择当前看起来最优的解法 。 3,希望得到全局最优的结果 比较经典的例题一个就是 找零问题 钞票种类[20,10,5,1]用最小的张数找零46的时候…