The joyrl-offline from geyuhong

EN|中文

JoyRL离线版

JoyRL是一套主要基于Torch的强化学习开源框架，旨在让读者仅仅只需通过调参数的傻瓜式操作就能训练强化学习相关项目，从而远离繁琐的代码操作，并配有详细的注释以兼具帮助初学者入门的作用。

本项目为JoyRL离线版，支持读者更方便的学习和自定义算法代码，同时配备JoyRL上线版，集成度相对更高。

安装说明

目前支持Python 3.8和Gym 0.25.2版本。

下载代码：

git clone https://github.com/johnjim0816/joyrl-offline

创建Conda环境（需先安装Anaconda）

conda create -n joyrl-offline python=3.8
conda activate joyrl-offline

安装Gym：

pip install gym==0.25.2

安装Torch：

# CPU
conda install pytorch==1.10.0 torchvision==0.11.0 torchaudio==0.10.0 cpuonly -c pytorch
# GPU
conda install pytorch==1.10.0 torchvision==0.11.0 torchaudio==0.10.0 cudatoolkit=11.3 -c pytorch -c conda-forge
# GPU镜像安装
pip install torch==1.10.0+cu113 torchvision==0.11.0+cu113 torchaudio==0.10.0 --extra-index-url https://download.pytorch.org/whl/cu113

安装其他依赖：

pip install -r requirements.txt

安装多线程

Multiprocessing框架

pip install multiprocess

Ray框架

pip install ray==2.3.0

使用说明

直接更改 config.config.GeneralConfig()类以及对应算法比如 algos\DQN\config.py中的参数，然后执行:

python main.py

运行之后会在目录下自动生成 tasks文件夹用于保存模型和结果。

或者也可以新建一个 yaml文件自定义参数，例如 config/custom_config_Train.yaml然后执行:

python main.py --yaml config/custom_config_Train.yaml

在presets文件夹中已经有一些预设的 yaml文件，并且相应地在benchmarks文件夹中保存了一些已经训练好的结果。

说明文档

文档链接

环境说明

请跳转envs查看说明

算法列表

传统强化学习

算法类型	算法名称	参考文献	作者
	Monte Carlo	RL introduction	johnjim0816
	Value Iteration	RL introduction	guoshicheng
Off-policy	Q-learning	RL introduction	johnjim0816
On-policy	Sarsa	RL introduction	johnjim0816

DRL基础

算法类别	算法名称	参考文献	作者	备注
Value-based	DQN	DQN Paper	johnjim0816, guoshicheng (CNN)
	DoubleDQN	DoubleDQN Paper	johnjim0816
	Dueling DQN		johnjim0816
	PER_DQN	PER_DQN Paper	wangzhongren,johnjim0816
	NoisyDQN	NoisyDQN Paper	wangzhongren
	C51	C51 Paper	also called Categorical DQN
	Rainbow DQN	Rainbow Paper	wangzhongren
Policy-based	REINFORCE	REINFORCE Paper	johnjim0816	最基础的PG算法
	A2C	A2C blog	johnjim0816
	A3C	A3C paper	johnjim0816, Ariel Chen
	GAE
	ACER
	TRPO	TRPO Paper
	PPO	PPO Paper	johnjim0816, Wen Qiu	PPO-clip, PPO-kl
	DDPG	DDPG Paper	johnjim0816
	TD3	TD3 Paper	johnjim0816

DRL进阶

算法类别	算法名称	参考文献	作者
MaxEntropy RL	SoftQ	SoftQ Paper	johnjim0816
	SAC
Distributional RL	C51	C51 Paper	also called Categorical DQN
	QRDQN	QRDQN Paper
Offline RL	CQL	CQL Paper	Ariel Chen
	BCQ
Multi-Agent	IQL	IQL Paper
	VDN	VDN Paper
	QTRAN
	QMIX	QMIX Paper
	MAPPO
	MADDPG
Sparse reward	Hierarchical DQN	H-DQN Paper
	ICM	ICM Paper
	HER	HER Paper
Imitation Learning	GAIL	GAIL Paper	Yi Zhang
	TD3+BC	TD3+BC Paper
Model based	Dyna Q	Dyna Q Paper	guoshicheng
Multi Object RL	MO-Qlearning	MO-QLearning Paper	curryliu30

Benchmark开发

环境名称	作者	算法
CartPole-v1	johnjim0816	DQN, Double DQN, Dueling DQN, REINFORCE, A2C, A3C
	wangzhongren	PER DQN
LunarLander-v2	FinnJob	PPO
LunarLanderContinuous-v2	MekeyPan	SAC
MountainCar-v0	GeYuhong	DQN
BipedalWalker-v3	scchy	DDPG

如何贡献

参考贡献说明

geyuhong / joyrl-offline Goto Github PK

joyrl-offline's Introduction

JoyRL离线版

安装说明

安装多线程

Multiprocessing框架

Ray框架

使用说明

说明文档

环境说明

算法列表

传统强化学习

DRL基础

DRL进阶

Benchmark开发

如何贡献

joyrl-offline's People

Contributors

Recommend Projects

React

Vue.js

Typescript

TensorFlow

Django

Laravel

D3

Recommend Topics

javascript

web

server

Machine learning

Visualization

Game

Recommend Org

Facebook

Microsoft

Google

Alibaba

D3

Tencent