实验室ICPR 2024论文分享┆FPMT: 基于增强型半监督模型的交通事件检测(含详细视频解读)

devtools/2024/9/25 8:54:17/

目录

论文分享简介

1. 会议介绍

2. 研究背景及主要贡献

3. 方法

4. 实验

5. 结论

6. 论文介绍视频


论文分享简介

本推文详细介绍了一篇实验室的最新论文成果《FPMT: Enhanced Semi-Supervised Model for Traffic Incident Detection》,该论文已被第27届国际模式识别大会(ICPR)接收,论文的第一作者为陆新颖。论文提出了一种名为FPMT的增强型半监督模型,专注于交通事件检测任务。结合MixText框架,该模型在数据增强模块中引入生成对抗网络(GANs),以平衡和扩展数据集,并通过隐藏空间中的概率伪混合机制增强正则化效果,从而提升模型的准确性。在训练策略上,FPMT采用了先无监督训练,再对部分标注数据进行监督微调,最终通过半监督学习完成模型训练。通过在四个真实数据集上的实验,FPMT模型在多项指标上展现出色的性能,特别是在低标注率的情况下,依然能够保持高水平的检测能力,展示了其在实际应用中的巨大潜力。本推文由陆新颖撰写,审校为李杨和朱旺。

原文链接:https://arxiv.org/abs/2409.07839

1. 会议介绍

 第27届国际模式识别大会(ICPR)将于2024年12月1日至5日在印度加尔各答隆重举行。ICPR起始于1972年,是国际模式识别联合会(IAPR)组织的模式识别领域的旗舰学术会议,每两年召开一次,主办国家或地区由国际模式识别联合会的理事会提前四年经无记名投票决定。大会涵盖了计算机视觉、机器学习、图像、语音、传感器模式处理等多个热门研究领域。ICPR为中国人工智能学会(CAAI)B类会议,中国计算机学会(CCF)C类会议。

2. 研究背景及主要贡献

交通事件检测在智能交通系统中至关重要,旨在快速识别交通事故、道路维修等事件。然而,由于数据标注的成本高昂,尤其是深度学习方法对大量标注数据的依赖,传统方法面临挑战。为解决此问题,本文提出了一种基于半监督学习的模型——FPMT,利用未标注数据提升模型性能,特别是在低标注率的情况下,表现尤为优异。主要贡献包括:

1)提出了一种新颖的半监督交通事件检测模型,在标注率极低的情况下表现出色。

2)在数据增强模块中引入生成对抗网络( Generative Adversarial Networks,GANs)以平衡和扩展数据集。

3)在MixText框架下优化了隐藏层的插值策略,以增强正则化效果。

4)应用了先进行监督训练,然后进行半监督微调的训练策略,以提高检测率。

5)在四个真实数据集上进行了广泛的实验,验证了所提出的半监督交通事件检测模型的有效性,并验证了每个模块的有效性。

3. 方法

基于MixText框架,本文提出了一种新的半监督交通事件检测模型FPMT,模型框架如图1所示。该模型集成了训练管道融合策略、概率伪混合策略,以及GANs数据平衡和增强策略。训练管道融合策略是指模型首先在所有数据上进行无监督训练,然后在部分标注数据上进行监督微调,最后通过半监督训练进一步提升模型性能。

 提出的FPMT模型整体框架

FPMT模型的半监督微调阶段遵循PTmix模型的框架,如图2所示。最初,使用GANs对数据集进行数据增强,以平衡并扩展数据集。增强后的数据集被划分为标注数据集和未标注数据集。标注数据集和未标注数据集都被输入到PTmix中,分别生成预测标签和混合数据的预测标签。最后再针对不同数据利用不同损失计算策略进行训练。

采用的混合策略为概率伪混合。混合技术最初是为图像数据设计的,考虑到图像数据是连续的,而文本数据具有离散性,无法直接适用。因此,需要在隐藏空间中进行插值。在一个具有H层的BERT模型中,这个过程涉及从数据集中选择两个样本:和并将它们输入到第一层,获得它们的隐藏表示。然后,在一个中间层,使用混合操作对这两个样本的隐藏表示进行混合,生成一个新样本。对于常用的混合操作,每个批次的混合比例,系数是从Beta分布中随机抽取的。而概率伪混合根据置信度的计算决定混合系数的大小,从而决定在混合得到的新样本中,哪一个样本的占比更大增强正则化效果

 2 PTmix框架

4. 实验

由于交通事件检测是一个二分类任务,分类参数固定为2。在PMT中的概率伪混合层选择上,经过单独训练PMT后发现,在第9层进行混合表现更好。模型的解码器基于Bert-base-uncased,并通过一个额外的线性层进行分类。BERT模型编码器的学习率设置为0.00001,额外线性层的学习率设置为0.001。在半监督微调阶段,对于每个数据集,使用GANs来平衡和增强数据集。在增强后的数据集中,每类未标注样本的数量设置为5000,标注样本的数量分别设置为50、100和1500,标注率分别为1%、2%和30%。图3的(a)和(b)比较了FPMT模型在不同标注样本数量(50、100、1500)下与基准模型的表现;(c)则展示了标注样本数量固定为50时的对比情况。

 图3 FPMT模型在不同标注样本数量下与基准模型的表现对比

 在实验中,选择的评估指标包括分类率(CR)、检测率(DR)和F1评分。每类未标注样本数量固定为5000后,在四个真实数据集上分别使用不同的标注样本数量(每类50、100和1500)进行实验,结果如表1和图3所示。FPMT模型在对比的模型中表现优异,即使在标注样本数量极少的情况下也展现了出色的性能。特别是在检测率(DR)方面,即使标注率仅为1%,其性能也超过了BERT在30%标注率下的表现。该模型在提升检测率方面展现了显著的能力。在PeMS数据集中,当标注样本数量最少,仅为50时,FPMT模型的检测率比MixText高出4.4%,表现最佳。在I-880数据集中,检测率比MixText高出5.6%。在另外两个数据集上的提升虽然不如前两个显著,但该模型依然展现了最佳性能。

模型性能对比

5. 结论

论文提出了一种半监督学习的交通事件检测模型FPMT,减少了模型对标注数据的依赖。训练管道包括无监督的预训练,接着进行监督微调,最后进行半监督训练。该模型结合了GANs用于数据集的平衡和扩充,并在隐藏层中采用了概率伪混合的数据增强技术,以提升半监督模型的性能。在四个真实数据集上与近期模型进行的对比实验表明,所提出的模型具有良好的效果。结果显示,即使在标注数据有限的情况下,该模型依然能够达到高水平的性能。

6. 论文介绍视频

论文介绍


http://www.ppmy.cn/devtools/116881.html

相关文章

程序设计中,day 与 date 这2个单词的区别

先看下面几个例句感受一下: What day is it today? - Its Firday. Whats the date today? - Its September 10th, Teachers Day. It takes me 5 days to read the book. 在不同的编程语言或数据库中,"day" 和 "dat…

python网站创建001:内容概览

内容概览: 1. Python环境搭建(Python解释器、Pycharm、环境变量等) 2. 基础语法(条件、循环、输入输出、编码等) 3. 数据类型型(整型、布尔型、字符串、列表、字典、元组、集合等) 4. 函数&…

机器学习与深度学习

目录 机器学习深度学习机器学习和深度学习有哪些维度的不同? 机器学习 首先简要介绍下机器学习(Machine Learning)的基本概念。主要介绍机器学习算法的应用,监督学习和无监督学习(supervised-unsupervised learning&a…

【ShuQiHere】 深入理解队列的实现方式:数组、链表与循环队列的全面解析

🎓 【ShuQiHere】 🌟 在计算机科学中,队列(Queue) 是一种常见的数据结构,它遵循**先进先出(FIFO, First In First Out)**的原则。无论是任务调度、消息队列、或是操作系统中的任务管…

高等数学大纲

一、函数与极限 函数的概念 函数的定义函数的性质(单调性、奇偶性、周期性)初等函数(代数函数、三角函数、指数函数、对数函数) 极限 极限的定义极限的性质无穷小与无穷大夹挤定理左右极限与极限的存在性 二、连续性 连续函数的定…

【计算机网络 - 基础问题】每日 3 题(二十)

✍个人博客:Pandaconda-CSDN博客 📣专栏地址:http://t.csdnimg.cn/fYaBd 📚专栏简介:在这个专栏中,我将会分享 C 面试中常见的面试题给大家~ ❤️如果有收获的话,欢迎点赞👍收藏&…

MyBatis—Plus 快速上手【后端 22】

MyBatis-Plus 使用入门指南 前言 在Java的持久层框架中,MyBatis因其灵活性和易用性而广受欢迎。然而,随着项目规模的扩大,MyBatis的一些重复性工作(如CRUD操作)开始显得繁琐。为了解决这一问题,MyBatis-Pl…

Linux 系统安装python

在Linux系统上安装Python的步骤相对直接,但具体步骤可能会因Linux发行版的不同而有所差异。以下是一个通用的安装流程,适用于大多数Linux系统: 1. 检查是否已安装Python 首先,打开终端并输入以下命令来检查系统是否已经安装了Py…