Unity下ML-Agents第一个示例

devtools/2025/2/19 17:07:27/

本文写于2025年2月12日,需要提前安装好Anaconda。按文中步骤测试了两次都可正常运行。

一、准备Python端

1.下载并解压 ML-Agents Release 22(使用git clone大概率会失败)

解压路径为 C:\Users\Administrator(Administrator为电脑用户名,你的用户名可能不一样)

 2.打开Anaconda Prompt,用conda虚拟环境创建

conda create -n mlagents22 python=3.10.12
conda activate mlagents22

 3.执行如下命令

python -m pip config set global.index-url https://mirrors.aliyun.com/pypi/simple //设置镜像源
cd ml-agents-release_22 //进入ml-agents-release_22文件夹
cd ml-agents-envs   //进入ml-agents-envs文件夹
pip install -e .  //注意后面的点

cd ..     //返回上层目录
cd  ml-agents
pip install -e . //注意后面的点

 4.安装GPU版torch

cd ..
cd .. //回到Administrator根目录
pip3 install torch~=2.2.1 --index-url https://download.pytorch.org/whl/cu121

大概率会下载失败,Ctrl+C中止执行,把下载地址复制出来,用迅雷下载 

 下载后再执行下面的命令安装 

pip install C:\迅雷下载\torch-2.2.2+cu121-cp310-cp310-win_amd64.whl

 5.在ml-agents-release_22\config目录下建rollerball_config.yaml

behaviors:RollerBallBrain:trainer_type: ppohyperparameters:batch_size: 64buffer_size: 2048learning_rate: 0.0003beta: 0.005epsilon: 0.2lambd: 0.95num_epoch: 3network_settings:normalize: truehidden_units: 128num_layers: 2reward_signals:extrinsic:gamma: 0.99strength: 1.0max_steps: 500000time_horizon: 64summary_freq: 10000

二、准备Unity

1.下载的 ML-Agents Release 22中有个Unity工程,位于Project文件夹

打开ProjectSettings/ProjectVersion.txt可以看到Unity版本

2.安装Unity2023.2.13f1,国内版本为Unity2023.2.13f1c1,过程略。

3.打开工程Project,如果提示找不到com.unity.ml-agents或com.unity.ml-agents.extensions。菜单Window->Package Manager,先Remove已有的ML Agents和ML Agents Extensions.

点击左上角的加号,选择Install package from disk,,选择ml-agents-release_22\com.unity.ml-agents和ml-agents-release_22\com.unity.ml-agents.extensions两个文件夹下的的package.json,完成安装

3.4新建一个场景,创建 一个Plane(命名为Floor),一个方块Cube(Target),一个球Sphere(RollerAgent)(Rotation均为0,0,0,Scale均为1,1,1)

Floor位置:0,0,0

Target位置:3,0.5,0

RollerAgent:0,0.5,0

4.新建一个脚 本RollerAgent

using Unity.MLAgents;
using Unity.MLAgents.Actuators;
using Unity.MLAgents.Sensors;
using UnityEngine;public class RollerAgent : Agent
{[SerializeField]private Transform Target; // 方块目标public float speed = 10; // 小球移动速度private Rigidbody rBody; // 小球刚体private void Start(){// 获取刚体组件rBody = GetComponent<Rigidbody>();}/// <summary>/// Agent重置:每次训练开始时调用/// </summary>public override void OnEpisodeBegin(){// 如果小球掉落平台,重置其位置和速度if (this.transform.position.y < 0){rBody.velocity = Vector3.zero;rBody.angularVelocity = Vector3.zero;transform.position = new Vector3(0, 0.5f, 0);}// 随机移动目标方块的位置Target.position = new Vector3(Random.value * 8 - 4, 0.5f, Random.value * 8 - 4);}/// <summary>/// 收集智能体的观察值/// </summary>/// <param name="sensor"></param>public override void CollectObservations(VectorSensor sensor){// 添加目标的位置 (3 个值:x, y, z)sensor.AddObservation(Target.position);// 添加小球的位置 (3 个值:x, y, z)sensor.AddObservation(transform.position);// 添加小球的速度 (2 个值:x, z,因为 y 方向不需要)sensor.AddObservation(rBody.velocity.x);sensor.AddObservation(rBody.velocity.z);}public override void OnActionReceived(ActionBuffers actionBuffers){// 获取动作数组:连续动作var continuousActions = actionBuffers.ContinuousActions;// 动作控制小球的移动Vector3 controlSignal = Vector3.zero;controlSignal.x = continuousActions[0]; // x 轴方向的力controlSignal.z = continuousActions[1]; // z 轴方向的力rBody.AddForce(controlSignal * speed);// 计算小球与目标的距离float distanceToTarget = Vector3.Distance(transform.position, Target.position);// 不同情况给奖励if (distanceToTarget < 1.42f){// 到达目标SetReward(1.0f);EndEpisode();}if (transform.position.y < 0){// 小球掉落EndEpisode();}} /// <summary>/// 手动测试用的动作生成逻辑(启用 Heuristic Only 时调用)/// </summary>/// <param name="actionsOut"></param>public override void Heuristic(in ActionBuffers actionsOut){var continuousActions = actionsOut.ContinuousActions;continuousActions[0] = Input.GetAxis("Horizontal"); // 左右continuousActions[1] = Input.GetAxis("Vertical");   // 前后// 调试信息Debug.Log($"Heuristic Actions: {continuousActions[0]}, {continuousActions[1]}");} }

5.RollerAgent添加四个组件Rigidbody、Behavior Parameters、Decision Requester、RollerAgent。

Behavior Parameters参数:

  • Behavior Name:RollerBallBrain
  • Space Size:8
  • Continuous Actions:2
  • Model:None(Model Asset)默认值

Decision Requester参数:

  • Decision Period:10

RollerAgent参数:

Target:设置为立方体

6.使用启发式训练进行测试,在RollerAgent的Behavior Parameters中将Behavior Type设置为Heuristic Only。按Play以运行场景并使用ADSW键在平台上移动球。。 

但这时可能发现球动不了,在Console面板中看到如下警告信息

Fewer observations (0) made than vector observation size (8). The observations will be padded.

Heuristic method called but not implemented. Returning placeholder actions.

这与脚本的挂载顺序有关(吐槽一下:这bug让人无语),是将 RollerAgent对象的 RollerAgent组件移到Agent之前

再次按Play以运行场景,就可以通过ADSW键在平台上移动球了。  

三、开始训练

1.切换到训练模式,在RollerAgent的Behavior Parameters中将Behavior Type设置为Default,先不要运行

在Anaconda Prompt中执行训练命令

mlagents-learn  config/rollerball_config.yaml --run-id=RollerBall-1

mlagents.trainers.exception.UnityTrainerException: Previous data from this run ID was found.

 说明该命令正在提示,执行如下命令恢复执行

mlagents-learn  config/rollerball_config.yaml --run-id=RollerBall-1  --resume

或强制覆盖执行

mlagents-learn  config/rollerball_config.yaml --run-id=RollerBall-1  --force

当看到如下提示时,切换到Unity点击Play,看到小球自己在动,就证明开始训练

[INFO] Listening on port 5004. Start training by pressing the Play button in the Unity Editor.

pythonUnity连接成功后是这样的

 2.当Mean Reward接近1时,就可以按Ctrl+C终止执行。

将ml-agents-release_22\results\RollerBall-1\RollerBallBrain\RollerBallBrain-*.onnx复制到Unity,设置到Behavior Parameters的Model中

再次点击Unity的Play(可关闭Anaconda Prompt),就可以看到小球自动靠近小方块 


http://www.ppmy.cn/devtools/159248.html

相关文章

markdown|mermaid|typora绘制流程图的连接线类型怎么修改?

1、使用typora绘制流程图。别人例子里面的连线是圆弧&#xff0c;我的画出来就是带折线的 这是卖家秀&#xff1a; 这是买家秀&#xff1a; 无语了有没有&#xff1f; 犹豫了片刻我决定一探究竟&#xff08;死磕&#xff09;。 Typora --> 文件 --> 偏好设置 --》 mar…

无人机遥感图像拼接软件有哪些?无人机遥感图像采集流程;遥感图像拼接的一般流程

无人机遥感图像拼接软件主要用于将多张无人机拍摄的图像拼接成一张完整的大图。以下是常见的几款软件&#xff1a; 1. Pix4Dmapper 特点&#xff1a;自动化处理&#xff0c;支持多光谱和热成像数据 适用场景&#xff1a;农业、测绘、建筑等 2. Agisoft Metashape 特点&#xff…

mysql数据被误删的恢复方案

文章目录 一、使用备份恢复二、使用二进制日志&#xff08;Binary Log&#xff09;三、使用InnoDB表空间恢复四、使用第三方工具预防措施 数据误删是一个严重的数据库管理问题&#xff0c;但通过合理的备份策略和使用适当的恢复工具&#xff0c;可以有效地减少数据丢失的风险…

FreeRTOS-rust食用指南

Rust 环境安装 rustup 是 Rust 的安装程序&#xff0c;也是它的版本管理程序&#xff0c;Linux 命令行下使用如下方式安装 # 安装 rustup curl --proto https --tlsv1.2 https://sh.rustup.rs -sSf | sh #更新 rustup rustup update# 版本检查 rustc -V cargo -VFreeRTOS-rust…

我的新书《青少年Python趣学编程(微课视频版)》出版了!

&#x1f389; 激动人心的时刻来临啦&#xff01; &#x1f389; 小伙伴们久等了&#xff0c;我的第一本新书 《青少年Python趣学编程&#xff08;微课视频版&#xff09;》 正式出版啦&#xff01; &#x1f4da;✨ 在这个AI时代&#xff0c;市面上的Python书籍常常过于枯燥&…

如何评估云原生GenAI应用开发中的安全风险(下)

以上就是如何评估云原生GenAI应用开发中的安全风险系列中的上篇内容&#xff0c;在本篇中我们介绍了在云原生AI应用开发中不同层级的风险&#xff0c;并了解了如何定义AI系统的风险。在本系列下篇中我们会继续探索我们为我们的云原生AI应用评估风险的背景和意义&#xff0c;并且…

【计算机视觉】文本识别

计算机视觉&#xff0c;广义的文本识别是指对输入的图像进行分析处理&#xff0c;识别出图像中的文字信息&#xff0c;这里的图像可以使传统的文档图像&#xff0c;也可以是现实世界中的场景图像。 简介 无论是传统方法还是基于深度深度学习的方法&#xff0c;完整的文本识别…

-bash:/usr/bin/rm: Argument list too long 解决办法

问题概述 小文件日志太多导致无法使用rm命令&#xff0c;因为命令行参数列表的长度超过了系统允许的最大值。 需要删除/tmp目录下的所有文件&#xff0c;文件数量比较多。 ls -lt /tmp | wc -l 5682452 解决方法如下&#xff1a; 使用find -exec 遍历&#xff0c;然后执行删…