【差分隐私相关概念】最大化似然函数就是最小化L1范数

news/2025/3/29 2:38:18/
1. 噪声分布与最大似然估计的关系
  • 噪声类型:矩阵机制中,噪声 η = r ~ − A x \eta = \widetilde{\mathbf{r}} - \mathbf{Ax} η=r Ax 服从 拉普拉斯分布 η ∼ Lap ( Δ A / ϵ ) \eta \sim \text{Lap}(\Delta_\mathbf{A}/\epsilon) ηLap(ΔA/ϵ)
  • 拉普拉斯分布的密度函数
    f ( η i ) = ϵ 2 Δ A e − ϵ ∣ η i ∣ / Δ A . f(\eta_i) = \frac{\epsilon}{2\Delta_\mathbf{A}} e^{-\epsilon |\eta_i| / \Delta_\mathbf{A}}. f(ηi)=2ΔAϵeϵηi∣/ΔA.
    其对数似然函数为:
    log ⁡ f ( η ) = 常数 − ϵ Δ A ∥ η ∥ 1 . \log f(\eta) = \text{常数} - \frac{\epsilon}{\Delta_\mathbf{A}} \|\eta\|_1. logf(η)=常数ΔAϵη1.
    最大化似然等价于 最小化 ∥ η ∥ 1 \|\eta\|_1 η1,即最小化 ∥ r ~ − A x ∥ 1 \|\widetilde{\mathbf{r}} - \mathbf{Ax}\|_1 r Ax1
2. 非负约束的必要性
  • 原始数据特性:数据库 x \mathbf{x} x 由非负整数组成(如人口计数)。
  • 伪逆解的缺陷:最小二乘解 x ^ = A † r ~ \widehat{\mathbf{x}} = \mathbf{A}^\dagger \widetilde{\mathbf{r}} x =Ar 可能包含负数,违背实际意义。
  • 后处理目标:找到非负且与噪声数据最接近的估计值 x ‾ ≥ 0 \overline{\mathbf{x}} \geq 0 x0
3. 优化问题的数学形式

最终的优化问题为:
x ‾ = arg ⁡ min ⁡ x ^ ≥ 0 ∥ r ~ − A x ^ ∥ 1 . \overline{\mathbf{x}} = \arg \min_{\widehat{\mathbf{x}} \geq 0} \|\widetilde{\mathbf{r}} - \mathbf{A}\widehat{\mathbf{x}}\|_1. x=argx 0minr Ax 1.
其含义如下:

  • 目标函数 ∥ ⋅ ∥ 1 \|\cdot\|_1 1):最大化拉普拉斯噪声下的似然概率。
  • 约束条件 x ^ ≥ 0 \widehat{\mathbf{x}} \geq 0 x 0):确保估计值符合现实意义。
4. 具体示例说明

场景

  • 数据库 x = [ x 1 , x 2 ] \mathbf{x} = [x_1, x_2] x=[x1,x2] 表示城市和农村人口,真实值 x = [ 100 , 200 ] \mathbf{x} = [100, 200] x=[100,200]
  • 策略矩阵 A = [ 1 1 1 − 1 ] \mathbf{A} = \begin{bmatrix} 1 & 1 \\ 1 & -1 \end{bmatrix} A=[1111],查询总人口和城乡差。
  • 噪声响应 r ~ = [ 303 , − 101 ] \widetilde{\mathbf{r}} = [303, -101] r =[303,101]

步骤

  1. 最小二乘解
    x ^ = A † r ~ = [ 101 , 202 ] . \widehat{\mathbf{x}} = \mathbf{A}^\dagger \widetilde{\mathbf{r}} = [101, 202]. x =Ar =[101,202].
    结果非负,可直接接受。

  2. 若噪声导致负值
    假设 r ~ = [ 300 , 150 ] \widetilde{\mathbf{r}} = [300, 150] r =[300,150],则:
    x ^ = A † r ~ = [ 225 , 75 ] . \widehat{\mathbf{x}} = \mathbf{A}^\dagger \widetilde{\mathbf{r}} = [225, 75]. x =Ar =[225,75].
    仍为非负,无需优化。

  3. 需优化的情况
    r ~ = [ 290 , 90 ] \widetilde{\mathbf{r}} = [290, 90] r =[290,90],则:
    x ^ = A † r ~ = [ 190 , 100 ] . \widehat{\mathbf{x}} = \mathbf{A}^\dagger \widetilde{\mathbf{r}} = [190, 100]. x =Ar =[190,100].
    若出现负数(如 x ^ = [ 150 , − 50 ] \widehat{\mathbf{x}} = [150, -50] x =[150,50]),需通过优化问题修正。

5. 总结
  • L1 范数 vs L2 范数
    • 拉普拉斯噪声的 最大似然估计 对应 L1 范数最小化
    • 高斯噪声的 MLE 对应 L2 范数最小化(如最小二乘)。
  • 非负约束
    • 强制估计值 x ‾ \overline{\mathbf{x}} x 符合现实数据的非负性。
  • 优化问题意义
    • 在满足实际约束(非负)的前提下,最大化观测到噪声数据的概率。

http://www.ppmy.cn/news/1582882.html

相关文章

git push 提示 fatal: the remote end hung up unexpectedly

这里写自定义目录标题 背景解决思路查看当前代理设置取消代理设置进行一些修改依次类推 检查本地仓库的完整性清理本地仓库中不必要的文件和引用假设你有多个文件需要提交依次类推 背景 今天在家整理一些知识相关,需要把本地代码(包括一些文章中的图片&…

Visual Studio调试的技巧

1.什么是bug? bug:程序漏洞,也就是程序中存在的问题。 2.什么是调试? 当我们发现了程序中的问题后就会解决问题,前提是要找到问题,那么进行调试(debug)以此来找到问题。 3.debug…

ICRA 2025 面向移动抓取的全身控制新范式——让机器人在移动与操控之间动态平衡

机器人学领域,移动抓取(Mobile Manipulation)是实现机器人在复杂环境中自主操作的关键技术。然而,当前主流的方法往往将移动底盘和机械臂的规划分开处理,这种割裂的方式导致机器人无法高效协调运动与抓取,进…

Flink 内存管理

一、内存模型 上图是一个 Flink 程序进程总体的内存模型,其包含 Flink 使用内存、JVM 元空间以及 JVM 开销。 Flink 使用了堆上内存和堆外内存;框架内存使用了堆上内存和堆外内存的直接内存;Task 使用堆上内存和堆外内存的直接内存;管理内存、JVM 元空间以及 JVM 内存开销使…

windows剪切板的内容无法拷贝到虚拟机virtualbox里的Rocky Linux中 --Draft

故障现象: windows剪切板的内容无法拷贝到虚拟机virtualbox里的Rocky Linux中. 虚拟机开机后,短暂提示:VBoxClient: the VirtualBox kernel service is not running. ... 故障原因: VirtualBox Guest Additions 没有正常工作。…

[工控机安全] 使用DriverView快速排查不可信第三方驱动(附详细图文教程)

导语: 在工业控制领域,设备驱动程序的安全性至关重要。第三方驱动可能存在兼容性问题、安全漏洞甚至恶意代码,威胁设备稳定运行。本文将手把手教你使用 DriverView工具,高效完成工控机驱动安全检查,精准识别可疑驱动&a…

汽车制造MES

一、整体生产工序 整车的车间主要分为4个部分:冲压、焊装、涂装、总装、整车入库 系统架构 二、车间概括 1.冲压车间 2.焊装车间 3.涂装车间 4.总装车间 1.整车装配的部件都要可追溯、数据实时性要求高、涉及分装与总装的协调、物流配送的协调、质量批处理的协调、…

《Solidity智能合约开发:从零到一实战指南》大纲

🚀 为什么要学 Solidity 智能合约? 在过去几年,区块链从一种“投机工具”进化为一种全新的技术基础设施。无论是 NFT、DeFi、GameFi 还是 DAO,它们的核心都是——智能合约。 ✨ 什么是智能合约? 智能合约是运行在区块链…