Rewar Model的输出(不包含训练)

news/2024/11/18 2:34:40/

这里写自定义目录标题

  • 介绍
  • 模型推理的输出过程方案
    • 原始Token输出
    • RM输出(回归任务)

介绍

奖励函数模型 (Reward Model) 是人工智能 (AI) 中的一种方法,模型因其对给定提示的响应而获得奖励或分数。现在的文章清一色的讲解RM的训练,但是没有讲解RM是如何输出一个分数的。本文只讲RM的输出,以补充资料的缺乏。RM通常采用Llama-7B模型,本文也沿用这一模型,同时模型的推理计算过程作为已知的知识,只讲解推理最后的输出部分。本文章先介绍传统Llama模型原始Token输出过程,再讲解RM的输出。以作为对比更好的学习。

模型推理的输出过程方案

  1. 原始Token输出

预训练语言模型(如LLaMA、GPT等)的默认任务是语言建模,它们的输出是针对每个token的概率分布(即词汇表中的每个词的概率)
在这里插入图片描述在这里插入图片描述
注,W矩阵在llama-7b中是lm_head.weight

  1. RM输出(回归任务)

写在前面:回归任务就不需要原始Token输出中的logits矩阵的计算(即图中H*W+B的部分)和softmax的计算。

  • 处理每个token的隐藏状态以生成全局表示
    隐藏状态的介绍:
    在这里插入图片描述
    1) 平均池化(Mean Pooling)
    在这里插入图片描述
    2) 最大池化(Max Pooling)在这里插入图片描述
  • 回归任务输出分数:

在这里插入图片描述


http://www.ppmy.cn/news/1547868.html

相关文章

Django中的Cookie和Session机制

Django中的Cookie和Session机制 引言 在Web开发中,HTTP协议的无状态特性意味着服务器不会记住用户的操作历史,这对于构建交互式Web应用来说是一个重大挑战。为了解决这个问题,开发者们引入了Cookie和Session机制。Django,作为一个高级Python Web框架,内置了对这两种机制…

力扣.16 最接近的三数之和

数组系列 力扣数据结构之数组-00-概览 力扣.53 最大子数组和 maximum-subarray 力扣.128 最长连续序列 longest-consecutive-sequence 力扣.1 两数之和 N 种解法 two-sum 力扣.167 两数之和 II two-sum-ii 力扣.170 两数之和 III two-sum-iii 力扣.653 两数之和 IV two-…

Linux TCP 服务器实现双向通信1v1

客户端 #include <sys/types.h> #include <sys/socket.h> #include <stdio.h> #include <string.h> #include <stdlib.h> #include <netinet/in.h> #include <arpa/inet.h> #include <unistd.h> #include <pthread.h>c…

鸿蒙实现 web 传值

前言&#xff1a;安卓和 IOS 加载 H5 的时候&#xff0c;都有传值给到 H5 或者接收 H5 值&#xff0c;鸿蒙也可传值和接收 H5 的内容&#xff0c;以下是鸿蒙传值给 H5 端的具体操作 一: 定义好 H5 和鸿蒙传值的方法名&#xff0c;两端必须保持方法名一致 // xxx.ets import …

C语言第九周课——经典算法

目录 一、冒泡法排序 1.1原理 1.2代码实现&#xff08;以升序排序为例&#xff09; 1.3逻辑 1.4分析 二、二分法查找 2.1原理 2.2代码实现 2.3逻辑 2.4算法效率分析 三、素数判断 3.1原理 3.2代码实现 3.3逻辑 3.4分析 一、冒泡法排序 1.1原理 冒泡排序&…

【数据结构】11.哈夫曼树哈夫曼编码

一、哈夫曼树的基本概念 哈夫曼&#xff08;Huffman&#xff09;树又称最优树&#xff0c;是一类带权路径长度最短的树&#xff0c;在实际中有广泛的用途。 路径&#xff1a; 从树中一个节点到另一个节点之间的分支构成这两个节点之间的路径。路径长度&#xff1a; 路径上的分…

【泛型 Plus】Kotlin 的加强版类型推断:@BuilderInference

视频先行 下面是视频内容的脚本文案原稿分享。 小剧场 面试官&#xff1a;「既然协程和泛型你都熟悉&#xff0c;flow() 函数是怎么实现类型推断的有了解过吗&#xff1f;」 求职者&#xff1a;「嗯……」 求职者&#xff1a;「嗯……在Kotlin协程中&#xff0c;flow 是一种构建…

ScreenAgent CogAgent 安装日志

环境&#xff1a;python3.10 、conda 4.5.11 python ./cogagent_model_worker.py --host 0.0.0.0 --port 40000 --from_pretrained "saved_models/cogagent-chat" --bf16 --max_length 2048 报错&#xff1a; [2024-11-16 18:23:52,527] [INFO] [real_accelerato…