2024年12月13日-15日,中国图象图形学学会在杭州召开。大会期间,来自合合信息的图像算法研发总监郭丰俊进行了主题为“视觉内容安全技术的前沿进展与应用”的演讲,介绍了视觉内容安全问题,并总结了现今的技术发展,对我很有启发。
近年来视觉技术的大幅发展,为我们工作生活带来便利的同时,也产生了一系列安全问题。由于AI技术导致伪造更容易,黑灰产引起许多社会问题以及企业或政府的刚性需求,视觉安全需求急剧增加。目前视觉内容安全技术分为主动鉴别和被动鉴别两种。主动鉴别可以鉴别无横机篡改和溯源,主要应用于产权保护、伪造检测和伪造溯源。而被动鉴别则可以不借助数字水印进行工作,支持更多的图像类型,主要应用于卡证防伪、文档票据伪造检测、AIGC图判别和伪造人脸检测。、
目前市面上的视觉安全产品也有很多,比如英特尔实验室的FakeCatcher、微软的Azure AI Face X-Ray、亚马逊的Amazon Rekognition,它们都在特定领域获得了一定的影响力。虽然技术有巨大突破,但视觉安全算法仍然存在一些挑战。比如跨域泛化问题,它会让知识成本和维护成本大幅提高。又比如纯色背景图篡改且无明显视觉异常的检测,它比普通图像更难以检测。再比如图象质量退化的场合,它会造成篡改痕迹不可逆损失。还有检出精度与误检率矛盾,如何保证高检出,极低误判率是设计模型中的一大难点。
合合信息也推出了自研的AI安全产品,它支持常见卡证、票据等伪造检测,也支持AIGC人脸伪造鉴别,并且能定位篡改区域。
合合内容安全系统不仅在通用类PS检测模型技术想当成熟,已在证券、保险、银行、零售等多个行业落地,而且在人脸鉴伪上也有很好的效果。
在ICDAR23-DTT比赛和全球AI攻防挑战赛——AI核身之金融场景凭证篡改检测上获得第一名好成绩。
不仅如此,合合信息还深度参与到产业发展之中。2024年10月,合合信息发起和参与编制的《文本图像篡改检测系统技术要求》发布,它标准围绕伪造图像鉴别、生成式图像判别等议题,凝聚行业共识,为行业提供有效指引。
目前内容安全系统还存在许多的需求方向,比如图像篡改检测,主要指利用PS加工图像或AI生成图片,包括身份证照造假、业务合同造假、资质证明造假、财务票据造假、其他材料造假等场景。以及人脸伪造检测,主要指利用照片活化、AI换脸或局部替换伪造人脸,包括身份认证、远程银行、在线开户、资金划拨、贷款申请和信用卡申请等场景。还有声纹伪造,主要指利用语音合成、语音转换、对抗攻击或重放攻击伪造声音,包括电话银行欺诈、APP资金划拨和伪造身份骗贷等场景。合合信息也一直在跟进这些需求,并积极将相关技术落地。
CVPR 23上,有文章利用频率感知头来弥补视觉特征不显著时的问题,并采用多视图迭代解码器MID来利用不同尺度的特征信息,基于ViT+DCT实现了篡改检测,可以检测部分无痕篡改。
AAAI 25上有论文利用Texture Jitter 提升细粒度感知,同时轻微抖动图像纹理,增广训练数据,引导引擎检测纹理的异常而不是具体的篡改表现。并且提出学习和分析特征之间的差异,而不仅是输入内容的特征的框架,提高对未见过篡改的检测性能。这个模型能够提升open-set中泛化能力,即训练集未见过种类样本,测试性能不显著下降。
尽管模型的性能有了很大的提升,但它依然面临诸多挑战。首先它易受攻击,比如缩放,传输过程可能会导致模型性能下降。其次它的泛化能力待提高,在特定场景和数据集上表现优异,但面对未知的伪造手段或多样化的应用场景时无法保持较高的检测精度。再者,由于伪造手段变化很快快,模型的维护成本很高。最后,数据获取与标注成本十分高昂,高质量的标注可能涉及隐私保护,进一步增加了获取难度。所以合合信息选择了基于大模型技术的探索方向。一方面可利用多模态信息提高准确率。并且,大模型适用于处理未见过新类别,性能下降少,提供了很好的泛化能力。其次,使多场景、类别共用一个系统能够降低使用门槛。同时,可通过交互注入知识,优化结果,便于知识注入。
基于这种理念诞生的ForgeryGPT模型,通过将伪造图像真假二分类及篡改区域的定位交给小模型处理。当小模型确定篡改位置后,将结果提示给大模型,再利用大模型自然语言解释异常区域。这种混合模型获得了更好的性能和更广泛的适应性。
在视觉内容安全日益受到重视的未来,含文字的视觉内容仍然有不少问题待解决,值得研究。同时视觉内容安全防护还应进行整体规划,做到从业务各环节考虑和协同,使方案更高效,更经济。整个行业内要去制定一套标准,以促进内容安全系统的更好落地。而厂家可以考虑主动、被动融合,增加内容系统有效性。在这之中,大模型等新技术的应用具有很大的潜力。合合信息会继续优化产品,为全球企业和个人用户提供创新的数字化、智能化服务。目前合合信息通用篡改检测平台和人脸伪造检测平台已登录TextIn开放平台并开放体验,感兴趣的小伙伴不妨亲自试用一下。