【深度学习】多源物料融合算法(一):量纲对齐常见方法

embedded/2025/3/13 15:06:53/

目录

一、引言

二、量纲对齐常见方法

2.1 Z-score标准化+Sigmoid归一化

2.2 Min-Max 归一化

2.3 Rank Transformation

2.4  Log Transformation

2.5 Robust Scaling 

3、总结


一、引言

类似抖音、快手、小红书等产品的信息流推荐业务,主要通过信息流广告、信息流直播电商等获得经济收益,对于流量最大的核心推荐系统,或多或少都要承担商业指标,承接特定物料的曝光需求。但是广告、直播电商或其他业务物料,会根据自己的需求进行排序,由于不是一套模型,业务场景数据也不一样,插入物料的量纲与主推荐量纲必定不相同,随之但是的就是无法比较问题,如何将不同的量纲对齐且可比呢,今天介绍常见的几种方法。

二、量纲对齐常见方法

2.1 Z-score标准化+Sigmoid归一化

Z-score标准化将数据转换为均值为0、标准差为1的分布。公式如下:

z=\frac{x-\mu }{\sigma }

其中:

  • x是原始数据点
  •  \mu是序列的均值
  • \sigma是序列的标准差

Sigmoid将均值为0、标准差为1的分布转化为值域为0-1的分布。公式为 

f(x)=\frac{1}{1+e^{-x}}

Z-score+Sigmoid序列合并计算步骤

  1.  对每个序列分别计算均值和标准差。
  2. 对每个数据点应用Z-score公式进行标准化。
  3. 对标准化后的序列采用Simgoid归一化到0-1后,进行比较。 

2.2 Min-Max 归一化

Min-Max 归一化将数据线性地转换到一个固定的区间(通常是 [0, 1])。公式如下:

x'=\frac{x-min}{max-min}

其中:

  • x 是原始数据点
  • min是序列的最小值
  • max是序列的最大值

序列合并计算步骤:

  1.  对每个序列分别计算最小值和最大值。
  2. 对每个数据点应用上述公式进行归一化。
  3. 合并归一化后的序列。  

2.3 Rank Transformation

Rank Transformation 将数据转换为它们的秩次。公式如下:

x'=rank(x)

序列合并计算步骤:

  1.  对每个序列分别计算每个数据点的秩次。
  2. 合并秩次后的序列。 

2.4  Log Transformation

如果数据分布偏斜,可以使用对数变换来压缩数据范围。公式如下:

x'=log(x+1)

 序列合并计算步骤:

  1.  对每个序列分别应用对数变换。
  2. 合并变换后的序列。 

2.5 Robust Scaling 

 Robust Scaling 使用中位数和四分位距(IQR)进行标准化,适用于存在异常值的数据。公式如下:

x'=\frac{x-mediam}{IQR} 

  • mediam是序列的中位数
  • IQR是序列的四分位距(即第75百分位数减去第25百分位数) 

 序列合并计算步骤:

  1.    对每个序列分别计算中位数和IQR。
  2.  对每个数据点应用上述公式进行标准化。
  3.  合并标准化后的序列。 ​​​​​​​

3、总结

本文初步介绍了多种将不同量纲的多源物料转换为同一量纲的方法,主要目标就是让不同业务场景的推荐排序结果可以比较,通过公式化的序列转换,快速达到可比的预期,计算效率更高。在实践中,Z-score+Sigmoid方法更为实用。


http://www.ppmy.cn/embedded/172277.html

相关文章

大型语言模型在工业应用中的局限性:事实性扩充与深入分析

大型语言模型在工业应用中的局限性:事实性扩充与深入分析 摘要 本文深入探讨了大型语言模型(LLMs)在工业应用中所面临的重大挑战,特别聚焦于其在机械图纸解读、可编程逻辑控制器(PLC)程序生成以及更广泛的…

Java进阶:Zookeeper相关笔记

概要总结: ●Zookeeper是一个开源的分布式协调服务,需要下载并部署在服务器上(使用cmd启动,windows与linux都可用)。 ●zookeeper一般用来实现诸如数据订阅/发布、负载均衡、命名服务、集群管理、分布式锁和分布式队列等功能。 ●有多台服…

Ubuntu-配置apt国内源

Ubuntu-配置apt国内源 安装vim apt-get update apt-get install -y vim备份 cp /etc/apt/sources.list /etc/apt/sources.list.bak编辑源数据 vim /etc/apt/sources.list deb http://mirrors.aliyun.com/ubuntu/ jammy main restricted universe multiverse deb-src http://m…

信号处理之插值、抽取与多项滤波

信号处理之插值、抽取与多项滤波 一、问题背景 插值(Interpolation)与抽取(Decimation)是数字信号处理中采样率转换的核心操作: 插值:在信号中插入新样本以提高采样率( L L L倍)抽取:按比例 M M M降低采样率&#xf…

AI自动化编程初探

先说vscodeclinemodelscope方案,后面体验trae或者cursor再写写其它的。vscode和trae方案目前来说是免费的,cursor要用claud需要付费,而且不便宜,当然效果可能是最好的。 vscode方案,我的经验是最好在ubuntu上&#xff…

Spring Boot面试问答

1. Spring Boot 基础知识 问题 1:什么是Spring Boot?它与Spring框架有何不同? 回答: Spring Boot是基于Spring框架的一个开源框架,旨在简化新Spring应用的初始化和开发过程。与传统的Spring框架相比,Spring Boot提供了以下优势: 自动配置:根据项目依赖自动配置Spring…

若依框架-给sys_user表添加新字段并获取当前登录用户的该字段值

目录 添加字段 修改SysUser类 修改SysUserMapper.xml 修改user.js 前端获取字段值 添加字段 若依框架的sys_user表是没有age字段的,但由于业务需求,我需要新添加一个age字段: 修改SysUser类 添加age字段后,要在SysUser类 …

deepseek本地部署

deepseek本地部署 哈喽,兄弟们!大家可以想象一下,如果有一个超级聪明的人机大脑,能帮你解答任何问题,从复杂的数学难题到编程代码,再到那些让你头疼的写作任务,它都能轻松搞定。这不是科幻电影里的场景,而是DeepSeek带来的现实奇迹!DeepSeek,这个名字听起来就充满了…