PPO

2024/9/18 21:15:04

Apple LLM: 智能基础语言模型（AFM）

今天想和大家分享一下我最近在arXiv.org上看到苹果发表的一篇技术论文 Apple Intelligence Foundation Language Models (https://arxiv.org/abs/2407.21075)，概述了他们的模型训练。这虽然出乎意料，但绝对是一个积极的惊喜！ 这篇论文有那么多…

PPO 学习笔记

用PPO算法求解整个神经网络在迭代过程中的梯度问题每走一步就会得到一个新的状态，把这个状态传到网络里面，会得到一个 action，执行这个 action 又会到达一个新状态 policy 中由状态 st 生成动作 at，生成的这个 at 是由整个网络的…

使用RKNN在Orange Pi 5 (RK3588s) 上部署推理PPO深度学习模型

文章目录一、前言1️⃣、Orange Pi 是什么？2️⃣、PPO 是什么？3️⃣、RKNN 是什么？3️⃣、ONNX 是什么？ 二、项目简介三、部署流程1️⃣、PPO 网络结构2️⃣、PPO 输出模型，模型转换，以及对比检查3️⃣、.…