字节 HLLM 论文阅读

ops/2024/10/21 22:04:15/

github连接:https://github.com/bytedance/HLLM

探讨问题:

推荐LLM的三个关键问题:

  • LLM预训练权重通常被认为是对世界知识的概括,其对于推荐系统的价值?
  • 对推荐任务进行微调的必要性?
  • LLM是否可以在推荐系统中表现出与在其他领域相同的可扩展性优势?越大效果越好吗?

本文结论:

  • 不管是从文本到embed的部分(Item LLM),还是从embed到embed的部分(User LLM)作者认为预训练权重都是对于这一部分有益的
  • 非常必要
  • 理论上可行

实验方法:

模型架构

分为两个模块

Item LLM:对于单个item做特征提取(单个item的文本序列 -->  [ITEM] 的emb )

提出了提取项目特征的方法。 它将item的文本描述作为输入,并输出嵌入表示。 llm在文本理解方面表现出了出色的性能,在项目文本描述的末尾添加一个特殊的令牌[ITEM]来提取特征,类比与Bert的放在末尾的[CLS]。

loss 1:InfoNCE Loss

 

User LLM:对于多个历史点击做用户建模( 用户的多个历史item的[ITEM] --> emb)

其中因为输入时候emb,所以直接丢弃了tokenizer,但是其他层的权重值留下了,作者说是很有用,不知道真的假的

loss 2 :cross Loss

 

总的loss = x*loss 1 + loss 2

loss都很常规,就不多说明了,论文里面也就3行,可以自行去看

训练方式

训练有两种主流模型:

1.生成式:主要是flow的meta家的HSTU工作,看过的小伙伴,欢迎补充信息

这里贴一篇帖子,做的实验证明HSTU的效果和ID_base的模型比较可能不占优势:

BaseModel vs HSTU for sequential recommendations

欢迎大家讨论自己的看法

2.判别式:

判别式又分成两个变体

Early fusion训练的时候,直接把待预测的样本的embedding E_target 放在序列结尾

Late fusion 后期用一个【user】代替,同时把E_target的和【user】一起输入预测层

实验结果

RQ1: LLM的一般预训练和带推荐目标的微调是否提高了最终的推荐性能?

实验说明,微调是非常有必要的

RQ2:与其他最先进的模型相比,HLLM的优势是否显著?

结论数据上看还是很华丽的

related work

目前推荐系统与大模型的结合:

这些探索可以分为三种类型:

  1. llm用于总结或补充用户或项目的信息(RLMRec)
  2. llm还用于生成冷启动项目的增强训练信号
  3. 将推荐方式转化为对话任务

个人感悟

本篇文章,主要的创新点其实在与2步走的分层训练,使得训练参数的大小减少


http://www.ppmy.cn/ops/127383.html

相关文章

295×413像素是几寸照片?如何手机拍照制作

在数字时代,我们经常需要将照片转换成电子版,以满足各种在线申请和报名的需求。其中,295413像素的照片尺寸是一种常见的规格,它通常对应于一寸照片。那么,如何使用手机拍摄并制作符合这一规格的电子照片呢?…

【乐企文件生成工程】关于乐企文件生成工程的详细介绍

【乐企文件生成工程】关于乐企文件生成工程的详细介绍 【乐企文件生成工程】关于乐企文件生成工程的详细介绍

chat_gpt回答:python获取当前utc时间,将xml里时间tag里的值修改为当前时间

你可以使用 lxml 库来读取、修改 XML 文件中的某个标签的值,并将其保存为新的 XML 文件。以下是一个示例代码,展示如何获取当前的 UTC 时间,并将 XML 文件中的某个时间标签修改为当前时间。 示例代码: from lxml import etree f…

Linux -- 进程间通信、初识匿名管道

目录 进程间通信 什么是进程间通信 进程间通信的一般规律 前言: 管道 代码预准备: 如何创建管道 -- pipe 函数 参数: 返回值: wait 函数 参数: 验证管道的运行: 源文件 test.c : m…

多IP访问网站

1.关闭防火墙 systemctl stop firewalld setenforce 0 2.下载nginx mount /dev/sr0/mnt dnf install nginx -y 3.启动nginx systemctl start nginx 4.修改nginx vim /etc/nginx/nginx.conf mkdir /www systemctl restart nginx 5.修改IP地址 nmtui nmcli connecti…

进程通信(SystemV通信方式:共享内存,消息队列,信号量)

目录 一、SystemV标准的进程间通信方式 二、共享内存 1.原理 2.准备工作 3.实现共享内存的函数 (1)shmget (2)ftok (3)shmctl 4.共享内存的实现 (1)comm.h (2…

YOLOv11改进策略【卷积层】| ECCV-2024 Histogram Transformer 直方图自注意力 适用于噪声大,图像质量低的检测任务

一、本文介绍 本文记录的是利用直方图自注意力优化YOLOv11的目标检测方法研究。在目标检测任务中,清晰准确的图像对于目标检测至关重要,本文创新方法通过恢复图像质量,可以减少因图像质量低导致的误检和漏检,实现有效涨点。 专栏目录:YOLOv11改进目录一览 | 涉及卷积层、…

C# 委托/事件

Delegate 传参:0 - 32个参数 返回:可以无返回值,也可以指定返回值类型。 清空: / null 例: public class EventExample {// 定义一个delegatepublic delegate void MyEventHandler(object source, EventArgs args);…