合合信息:探索视觉内容安全新前沿

devtools/2024/12/25 22:52:55/

2024年12月13日-15日,中国图象图形学学会在杭州召开。大会期间,来自合合信息的图像算法研发总监郭丰俊进行了主题为“视觉内容安全技术的前沿进展与应用”的演讲,介绍了视觉内容安全问题,并总结了现今的技术发展,对我很有启发。

近年来视觉技术的大幅发展,为我们工作生活带来便利的同时,也产生了一系列安全问题。由于AI技术导致伪造更容易,黑灰产引起许多社会问题以及企业或政府的刚性需求,视觉安全需求急剧增加。目前视觉内容安全技术分为主动鉴别和被动鉴别两种。主动鉴别可以鉴别无横机篡改和溯源,主要应用于产权保护、伪造检测和伪造溯源。而被动鉴别则可以不借助数字水印进行工作,支持更多的图像类型,主要应用于卡证防伪、文档票据伪造检测、AIGC图判别和伪造人脸检测。、

目前市面上的视觉安全产品也有很多,比如英特尔实验室的FakeCatcher、微软的Azure AI Face X-Ray、亚马逊的Amazon Rekognition,它们都在特定领域获得了一定的影响力。虽然技术有巨大突破,但视觉安全算法仍然存在一些挑战。比如跨域泛化问题,它会让知识成本和维护成本大幅提高。又比如纯色背景图篡改且无明显视觉异常的检测,它比普通图像更难以检测。再比如图象质量退化的场合,它会造成篡改痕迹不可逆损失。还有检出精度与误检率矛盾,如何保证高检出,极低误判率是设计模型中的一大难点。

合合信息也推出了自研的AI安全产品,它支持常见卡证、票据等伪造检测,也支持AIGC人脸伪造鉴别,并且能定位篡改区域。

合合内容安全系统不仅在通用类PS检测模型技术想当成熟,已在证券、保险、银行、零售等多个行业落地,而且在人脸鉴伪上也有很好的效果。

在ICDAR23-DTT比赛和全球AI攻防挑战赛——AI核身之金融场景凭证篡改检测上获得第一名好成绩。

不仅如此,合合信息还深度参与到产业发展之中。2024年10月,合合信息发起和参与编制的《文本图像篡改检测系统技术要求》发布,它标准围绕伪造图像鉴别、生成式图像判别等议题,凝聚行业共识,为行业提供有效指引。

目前内容安全系统还存在许多的需求方向,比如图像篡改检测,主要指利用PS加工图像或AI生成图片,包括身份证照造假、业务合同造假、资质证明造假、财务票据造假、其他材料造假等场景。以及人脸伪造检测,主要指利用照片活化、AI换脸或局部替换伪造人脸,包括身份认证、远程银行、在线开户、资金划拨、贷款申请和信用卡申请等场景。还有声纹伪造,主要指利用语音合成、语音转换、对抗攻击或重放攻击伪造声音,包括电话银行欺诈、APP资金划拨和伪造身份骗贷等场景。合合信息也一直在跟进这些需求,并积极将相关技术落地。

CVPR 23上,有文章利用频率感知头来弥补视觉特征不显著时的问题,并采用多视图迭代解码器MID来利用不同尺度的特征信息,基于ViT+DCT实现了篡改检测,可以检测部分无痕篡改。

AAAI 25上有论文利用Texture Jitter 提升细粒度感知,同时轻微抖动图像纹理,增广训练数据,引导引擎检测纹理的异常而不是具体的篡改表现。并且提出学习和分析特征之间的差异,而不仅是输入内容的特征的框架,提高对未见过篡改的检测性能。这个模型能够提升open-set中泛化能力,即训练集未见过种类样本,测试性能不显著下降。

尽管模型的性能有了很大的提升,但它依然面临诸多挑战。首先它易受攻击,比如缩放,传输过程可能会导致模型性能下降。其次它的泛化能力待提高,在特定场景和数据集上表现优异,但面对未知的伪造手段或多样化的应用场景时无法保持较高的检测精度。再者,由于伪造手段变化很快快,模型的维护成本很高。最后,数据获取与标注成本十分高昂,高质量的标注可能涉及隐私保护,进一步增加了获取难度。所以合合信息选择了基于大模型技术的探索方向。一方面可利用多模态信息提高准确率。并且,大模型适用于处理未见过新类别,性能下降少,提供了很好的泛化能力。其次,使多场景、类别共用一个系统能够降低使用门槛。同时,可通过交互注入知识,优化结果,便于知识注入。

基于这种理念诞生的ForgeryGPT模型,通过将伪造图像真假二分类及篡改区域的定位交给小模型处理。当小模型确定篡改位置后,将结果提示给大模型,再利用大模型自然语言解释异常区域。这种混合模型获得了更好的性能和更广泛的适应性。

在视觉内容安全日益受到重视的未来,含文字的视觉内容仍然有不少问题待解决,值得研究。同时视觉内容安全防护还应进行整体规划,做到从业务各环节考虑和协同,使方案更高效,更经济。整个行业内要去制定一套标准,以促进内容安全系统的更好落地。而厂家可以考虑主动、被动融合,增加内容系统有效性。在这之中,大模型等新技术的应用具有很大的潜力。合合信息会继续优化产品,为全球企业和个人用户提供创新的数字化、智能化服务。目前合合信息通用篡改检测平台和人脸伪造检测平台已登录TextIn开放平台并开放体验,感兴趣的小伙伴不妨亲自试用一下。


http://www.ppmy.cn/devtools/145382.html

相关文章

基于单片机的噪音检测系统(论文+源码)

1整体方案设计 2.2.1功能设计 本课题为噪音分贝仪,在功能上设计如下: 1.可以准确的识别周围环境的噪声大小。 2.检测的噪声大小可以通过液晶进行显示,并直观的给出当前噪声的程度大小; 3.可以通过按键设定报警阈值&#xff0…

VBA技术资料MF244:利用VBA在图表工作表中创建堆积条形图

我给VBA的定义:VBA是个人小型自动化处理的有效工具。利用好了,可以大大提高自己的工作效率,而且可以提高数据的准确度。“VBA语言専攻”提供的教程一共九套,分为初级、中级、高级三大部分,教程是对VBA的系统讲解&#…

NLP 中文拼写检测纠正论文-02-2019-SOTA FASPell Chinese Spell Checke github 源码介绍

拼写纠正系列 NLP 中文拼写检测实现思路 NLP 中文拼写检测纠正算法整理 NLP 英文拼写算法,如果提升 100W 倍的性能? NLP 中文拼写检测纠正 Paper java 实现中英文拼写检查和错误纠正?可我只会写 CRUD 啊! 一个提升英文单词拼…

OpenCV学习——图像融合

import cv2 as cv import cv2 as cvbg cv.imread("test_images/background.jpg", cv.IMREAD_COLOR) fg cv.imread("test_images/forground.png", cv.IMREAD_COLOR)# 打印图片尺寸 print(bg.shape) print(fg.shape)resize_size (1200, 800)bg cv.resize…

LWIP(stm32+lwip+freertos)

前言 本文是学习之余的记录,后续内容有时间补充 代码:git地址 一、LWIP配置 1.1 Project Manager 填写名称和选择路径,然后IDE选择MDK-ARM Code Generator下选择.c和.h文件分开编译1.2 基本外设选择 可以自行添加其他外设,本…

【云原生】kubeadm搭建的kubernetes1.28集群上自建ingress-nginx服务

1、查询兼容性 先确认下kubernetes版本与ingress-nginx版本兼容性 Ingress-NGINX 版本支持的 k8s 版本Alpine 版本Nginx 版本Helm Chart 版本v1.12.0-beta.01.31, 1.30, 1.29, 1.283.20.31.25.54.12.0-beta.0v1.11.31.30, 1.29, 1.28, 1.27, 1.263.20.31.25.54.11.3v1.11.21.3…

使用 perf 工具进行性能分析

1、perf简介 perf 是 Linux 内核自带的一个性能分析工具,它能够采集和分析系统和应用程序的性能数据。perf 是基于 Linux 内核的性能计数器(Performance Counters)实现的,通过它可以收集大量关于 CPU、内存、I/O 等方面的信息。p…

GA-BP回归-遗传算法(Genetic Algorithm)和反向传播神经网络(Backpropagation Neural Network)

GA-BP回归详细介绍 源码 什么是GA-BP回归? GA-BP回归(遗传算法-反向传播回归,Genetic Algorithm-Backpropagation Regression)是一种结合了**遗传算法(Genetic Algorithm, GA)和反向传播神经网络&#x…