用最少的代码实现基本RL算法（基于PyTorch）

一般编程问题

下载此实例

开发语言：Others
实例大小：0.02M
下载次数：2
浏览次数：91
发布时间：2024-06-07
实例类别：一般编程问题
发布人：chenxiaolan
文件格式：.zip
所需积分：2

相关标签： PyTorch torch ORC 实现 py

网友评论举报投诉收藏该页

下载此实例

实例介绍

[下载地址]

【实例简介】

这是一个基于PyTorch的minimalRL-pytorch项目，提供了基本RL算法的实现，每个算法都在单个文件中完成。

代码行数仅为100~150行，每个算法训练时间不超过30秒，即使没有GPU。

环境固定为“CartPole-v1”，您只需关注实现部分。

算法

REINFORCE（67行）
Vanilla Actor-Critic（98行）
DQN（112行，包括重放记忆和目标网络）
PPO（119行，包括GAE）
DDPG（145行，包括OU噪声和软目标更新）
A3C（129行）
ACER（149行）
A2C（188行）
SAC（171行）
PPO-Continuous（161行）
Vtrace（137行）

任何建议...？

依赖

PyTorch
OpenAI GYM（> 0.26.2 重要！！不再支持之前的版本）

用法

# 仅适用于Python 3。

例如：

python3 REINFORCE.py
python3 actor_critic.py
python3 dqn.py
python3 ppo.py
python3 ddpg.py
python3 a3c.py
python3 a2c.py
python3 acer.py
python3 sac.py
【实例截图】
【核心代码】
文件清单
└── minimalRL-c8efed8481e3cd40e9739cfde220a55522555b57
    ├── a2c.py
    ├── a3c.py
    ├── acer.py
    ├── actor_critic.py
    ├── ddpg.py
    ├── dqn.py
    ├── LICENSE
    ├── ppo-continuous.py
    ├── ppo-lstm.py
    ├── ppo.py
    ├── README.md
    ├── REINFORCE.py
    ├── sac.py
    └── vtrace.py

1 directory, 14 files

标签： PyTorch torch ORC 实现 py

实例下载地址