飞机大战告尾

ops/2024/10/19 9:58:26/

参考

PPO算法逐行代码详解

链接

通过网盘分享的文件:PlaneWar
链接: https://pan.baidu.com/s/1cbLKTcBxL6Aem3WkyDtPzg?pwd=1234 提取码: 1234

10.17关于博客发了又改这件事

悲催的事

今天训练了一早上ppo模型,满怀期待的检测成果时发现一点长进都没有。结果查出来一件悲催的事,模型一直都在输出静止指令!昨晚只训练了一会,刚好看到有个得了200分的模型,还以为ok了的。
现在想想,不知道我是运气好还是不好,那个飞机就靠着随机数(dqn遗留下来的,我没删)拿了个200分,还把我骗过去了…只能说游戏特性造就了它,静止时没子弹打他,随机数又帮它躲子弹和拿buff,要是在贪吃蛇,活不过一秒

修改

连续换了几个关键词,总算在github上找到了使用ppo的游戏ai。
这次就快很多了,一顿cv,甚至都不用怎么改(开源万岁!),因为它是用pygame实现游戏的。
这次不敢怎么改了,太多坑了。但是不改的话,ai只能决定移动方向,过于死板。人类玩的时候可以通过按钮的点击时长来控制飞机速度,而ai只能一点点挪动。因此,我将输出值由之前的4变成了13(不够还可以再加),即4*3+1。

0 -> 静止
1 5 9 上 2 6 10 右 速度依次增大

        direction = actionif direction == 0:distance = 0else:#1 2 3 4 上 右 左 下 好别扭呀distance=5*int(direction/4+1)direction=direction%4+1

10.16

静默

昨晚问了一下gpt,将昨天的静默模式完善了一下(之前的贪吃蛇在训练时就是静默的,同时32个一起训,可惜这个项目不太好实现,报“无法序列化”类似的错)。

dqn改成了ppo

效果拔群!!!
在这里插入图片描述

平均分明显挺高了好多。
就是改的过程有点折磨人了。一开始想找博客,没见有直接用游戏做示例的,直接看又没心思。想着去问ai简单点,
在这里插入图片描述

给的很痛快,bug一堆…改了一小时后,它成功帮我克服了数学恐惧症,找博客看了。
将博客代码cv进去后,由于本项目传进net中的是一整张图,我在网上找不到啥相关了,只好又跟ai斗智斗勇了一番。早上九点研究到下午五点,一直在找bug。
结果吃了顿饭回来,才发现可以参考dqn的代码(有时候脑袋不灵光,很简单的事就是想不通)。工作量一下就缩小了好几倍!后面就是将dqn中的update函数魔改成ppo的(个人感觉dqn改成ppo主要改这里就行)
在这里插入图片描述

有些问题实在难以解决,那就只能灵活一下,绕过去了。

ppo的强大

换成了ppo,画面不卡顿了,模型文件变小了(dqn 600MB,现在ppo 3MB),平均分也变高了。

起始分在这里插入图片描述

每次都要重新开始会导致缺少对抗boss的经验。通过设置初始分,起到类似选择关卡的作用,开局对战boss(200分第一个boss出现)。

10.15

奖励分

昨晚看到别的强化学习视频,发现之前设计的奖惩机制太简陋了。有些奖励分重复,例如角色受到的伤害与敌人造成的伤害都会给予惩罚(不知道当初咋想的),有些需要奖励的没给到位,例如没有存活分。
研究了一早上关于奖励的机制后,总体表现好了点,却出现了新问题,现在经常突然就冲进敌群里自杀。刚开始我以为是击杀分过高了,导致ai过于勇猛。结果几度大砍击杀分和增强存活分(有可能造就一个怂货),反而更猛了,还学会了冲到最上面去吃伤害…
不信邪的我打了几个log,看了一下奖励分到底怎么变化的。无效,跟我想的差不多,但效果却大相径庭。

pygame_52">pygame卡顿

敌人过多时,会导致卡住。通过装饰器测了一下时间,发现游戏刷新耗废了大部分时间。
在这里插入图片描述

在这里插入图片描述

期间又是修修改改,缝缝补补。又是暂停计时器,又是进程中夹带线程,还不小心搞成了静默模式。


http://www.ppmy.cn/ops/126687.html

相关文章

推荐算法的学习

文章目录 前言1、模型1.1 从本领域模型的发展历史中学习1.1.1 在历史中总结发展规律和趋势1.1.2 发现模型之间的共性,方便记忆 1.2 从其他领域的发展中学习1.2.1 注意力机制1.2.2 残差网络 1.3 实践该怎么办? 2、 特征2.1 数据源的选择与建立2.2 特征构造…

【java面经thinking】一

目录 类加载过程 加载: 连接 初始化 GC回收机制(垃圾回收) 区域 判断对象是否存活 回收机制 HashMap 类加载器 加载标识 加载机制 缓存 自定义加载器: JVM内存结构 常量池 string设置成final 按下网址发生 类加…

59.螺旋矩阵②

目录 题目解法解决方案的关键点&#xff1a;代码实现&#xff1a;代码解释&#xff1a;输出结果&#xff1a;复杂度分析&#xff1a; 如何创建一个纯1的矩阵&#xff1f;奇偶矩阵的边界在何处做限制if (top < bottom)为什么要有这个限制&#xff1f; 不一定需要先把num数组做…

Java项目-基于Springboot的在线外卖系统项目(源码+说明).zip

作者&#xff1a;计算机学长阿伟 开发技术&#xff1a;SpringBoot、SSM、Vue、MySQL、ElementUI等&#xff0c;“文末源码”。 开发运行环境 开发语言&#xff1a;Java数据库&#xff1a;MySQL技术&#xff1a;SpringBoot、Vue、Mybaits Plus、ELementUI工具&#xff1a;IDEA/…

子网掩码问题3 已知ip 地址数是5

假设 1.1.1.0 /24 需 划分27 个地址&#xff0c;求这个地址段的网络位&#xff0c;主机位&#xff0c;以及他们的详细信息 解&#xff1a; 假设主机地址位数是x 那么主机的地址个数 2的x次方-2 因为地址不能全部为0 也不能全为1 2 的x 次方 -2 > 27…

原型链+instanceof+Vue底层原理

一些重要的前端知识总结&#xff08;基于笔面试题的扩展&#xff09;&#xff0c;包含原型链、instanceof、深度剖析Vue底层原理 目录 一、原型链 二、instanceof 1. instanceof 2. 用法 三、defineProperty和Proxy 1. vue架构-MVVM 2. render函数 1&#xff09;render…

Leetcode 二叉搜索树的第 K 个元素

复习一下二叉搜索树 二叉搜索树 (Binary Search Tree, 简称 BST) 是一种特殊的二叉树(可以为空)&#xff0c;其中每个节点都有一个值&#xff0c;并且满足以下特点&#xff1a; 定义&#xff1a; 左子树节点的值小于根节点的值&#xff1a;对于每个节点&#xff0c;左子树中所…

利用 Direct3D 绘制几何体—6.常量缓冲区

1. 创建常量缓冲区 常量缓冲区 (constant buffer) 也是一种 GPU 资源 (ID3D12Resource)&#xff0c;其数据内容可供着色器程序所引用。顶点着色器实例中&#xff1a; cbuffer cbPerObject : register(b0) {float4x4 gWorldViewProj; }; 在这段代码中&#xff0c;cbuffer 对…