Comments (25)
@xiaoliua1 感谢您的反馈,回复如下:
from easy-rl.
感恩,整理得很清楚,不过有个小问题,查了一下好像大部分都认为PPO是on-policy的,而非off-policy?
from easy-rl.
感恩,整理得很清楚,不过有个小问题,查了一下好像大部分都认为PPO是on-policy的,而非off-policy?
感谢您的反馈,PPO 的确是 on-policy 的,本章参考的资料有一些问题,会尽快更新
from easy-rl.
感恩,整理得很清楚,不过有个小问题,查了一下好像大部分都认为PPO是on-policy的,而非off-policy?
感谢您的反馈,PPO 的确是 on-policy 的,本章参考的资料有一些问题,会尽快更新
添加了 PPO 是 on-policy 算法的解释
from easy-rl.
感恩,整理得很清楚,不过有个小问题,查了一下好像大部分都认为PPO是on-policy的,而非off-policy?
感谢您的反馈,PPO 的确是 on-policy 的,本章参考的资料有一些问题,会尽快更新
添加了 PPO 是 on-policy 算法的解释
你好,请问ppo是用旧的θ'来更新新的θ,为什么还是on-policy呢?
from easy-rl.
感恩,整理得很清楚,不过有个小问题,查了一下好像大部分都认为PPO是on-policy的,而非off-policy?
感谢您的反馈,PPO 的确是 on-policy 的,本章参考的资料有一些问题,会尽快更新
添加了 PPO 是 on-policy 算法的解释
你好,请问ppo是用旧的θ'来更新新的θ,为什么还是on-policy呢?
from easy-rl.
您好,非常感谢整理,重要性采样那块儿我没弄明白“q(x) 可以是任何分布,唯一的限制就是 q(x) 的概率是 0 的时候,p(x) 的概率不为 0,不然这样会没有定义。假设 q(x) 的概率是 0 的时候,p(x) 的概率也都是 0 的话,那这样 p(x) 除以 q(x)是有定义的。” 分母不应该不能为0吗
from easy-rl.
您好,非常感谢整理,重要性采样那块儿我没弄明白“q(x) 可以是任何分布,唯一的限制就是 q(x) 的概率是 0 的时候,p(x) 的概率不为 0,不然这样会没有定义。假设 q(x) 的概率是 0 的时候,p(x) 的概率也都是 0 的话,那这样 p(x) 除以 q(x)是有定义的。” 分母不应该不能为0吗
您好,您可以这样理解,在重要性权重 p/q 中,p≠0 但是 q=0,那么重要性权重=∞,所以p≠0 但是 q=0 的情况是个限制,不适用;
而 p 和 q 在某处 x 都为0的话,重要性权重也可以定义(不为无穷或者零),只不过f(x)p(x)=0,即这点对期望的累积没有贡献。
from easy-rl.
谢谢博主!
from easy-rl.
- PPO代码中,计算优势函数那部分(a_t += discount*(reward_arr[k] +self.gammavalues[k+1] (1-int(dones_arr[k])) - values[k])),跟第四章的介绍优势函数的公式不太一样诶,请问教材里是在哪里涉及到PPO的优势函数的呀?
from easy-rl.
from easy-rl.
感谢您的反馈,这里指的就是基线(baseline),具体可参考:
https://datawhalechina.github.io/easy-rl/#/chapter4/chapter4?id=tip-1-add-a-baseline
from easy-rl.
我看pg算法里,有对t累加的操作,为什么第三张幻灯片没有了呢?不太懂这张幻灯片里期望的含义
from easy-rl.
@o00000o
您好,非常感谢整理,重要性采样那块儿我没弄明白“q(x) 可以是任何分布,唯一的限制就是 q(x) 的概率是 0 的时候,p(x) 的概率不为 0,不然这样会没有定义。假设 q(x) 的概率是 0 的时候,p(x) 的概率也都是 0 的话,那这样 p(x) 除以 q(x)是有定义的。” 分母不应该不能为0吗
您好,在高等数学里面分母是可以趋向于0的,只不过如果分母为零,分子不为零,整个函数是趋于无穷的,如果分子分母都为零是有可能收敛的。比如
f(x) = sinx/x,当x趋于0的时候,可以算出结果为f(0) = 1。当然这只是一个例子,具体的可以去搜一下无穷小量。
from easy-rl.
您好,作为强化学习的初学者,我从本章5.1小节的标题“从同策略到异策略”中感受到两点暗示:1、从同策略到异策略是一种优化。2、PPO算法是一种异策略算法。对于第一点我还没搞明白,第二点似乎并不正确。是不是改为“同策略与异策略”之类的标题会更合适一点。
from easy-rl.
您好,我有问题想请教一下。我感觉PPO相比于重要性采样的唯一区别是在约束中增加了一个约束项,使得$theta^'$与$theta$相差不大,为什么重要性采样是异策略,PPO是同策略呢?文章中说原因是PPO中$thete^'$是$theta_old$,但我觉得重要性采样中的$thete^'$也应该是$theta_old$呀。谢谢!
from easy-rl.
您好,我有问题想请教一下。我感觉PPO相比于重要性采样的唯一区别是在约束中增加了一个约束项,使得$theta^'$与$theta$相差不大,为什么重要性采样是异策略,PPO是同策略呢?文章中说原因是PPO中$thete^'$是$theta_old$,但我觉得重要性采样中的$thete^'$也应该是$theta_old$呀。谢谢!
@Chuan-shanjia 感谢您的反馈,回复如下:
关于这块的表述已在文章中更新:552e4f2
from easy-rl.
感谢分享
from easy-rl.
感谢分享
客气啦~
from easy-rl.
请问有连续情况下PPO的实例吗
from easy-rl.
请问图5.4有出处吗?
from easy-rl.
请问图5.4有出处吗?
@Chin-Sun
Proximal Policy Optimization Algorithms
https://arxiv.org/pdf/1707.06347
from easy-rl.
请问图5.4有出处吗?
@Chin-Sun
Proximal Policy Optimization Algorithms
https://arxiv.org/pdf/1707.06347
谢谢!感谢分享这篇笔记:)
from easy-rl.
请问图5.4有出处吗?
@Chin-Sun
Proximal Policy Optimization Algorithms
https://arxiv.org/pdf/1707.06347谢谢!感谢分享这篇笔记:)
客气啦~ ^V^
from easy-rl.
请问有连续情况下PPO的实例吗
@YZH-WDNMD
可以看这个:
https://github.com/datawhalechina/joyrl-book/blob/main/notebooks/%E7%AC%AC12%E7%AB%A0_PPO_Pendulum-v1.ipynb
from easy-rl.
Related Issues (20)
- Edit problem in Chapter3 HOT 1
- 随书代码在哪 HOT 6
- 第五章勘误 HOT 1
- 内容勘误? HOT 3
- 添加参考文献 HOT 1
- SAC代码问题 HOT 2
- 4.3 REINFORCE:蒙特卡洛策略梯度 HOT 1
- 最新的版本,可以出PDF吗 HOT 2
- value_iteration 算法不收敛 ? HOT 1
- 错别字 HOT 2
- DuelingDQN.ipynb中可能存在的两个BUG~
- 我在运行DQN代码时,初始的state总会多一个值。
- 图6.8左下角标识应该是“动作价值(Q)”? HOT 1
- DDPG算法实现出现问题
- 关于书中DDPG算法的疑问
- PPO算法的实现, 为啥要给概率取对数? HOT 2
- 连续动作空间的PPO算法 HOT 2
- dqn算法问题
- 纸质版是怎么做的? HOT 1
- 关于条件全期望公式的推导的问题 HOT 1
Recommend Projects
-
React
A declarative, efficient, and flexible JavaScript library for building user interfaces.
-
Vue.js
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
-
Typescript
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
-
TensorFlow
An Open Source Machine Learning Framework for Everyone
-
Django
The Web framework for perfectionists with deadlines.
-
Laravel
A PHP framework for web artisans
-
D3
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
-
Recommend Topics
-
javascript
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
-
web
Some thing interesting about web. New door for the world.
-
server
A server is a program made to process requests and deliver data to clients.
-
Machine learning
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
-
Visualization
Some thing interesting about visualization, use data art
-
Game
Some thing interesting about game, make everyone happy.
Recommend Org
-
Facebook
We are working to build community through open source technology. NB: members must have two-factor auth.
-
Microsoft
Open source projects and samples from Microsoft.
-
Google
Google ❤️ Open Source for everyone.
-
Alibaba
Alibaba Open Source for everyone
-
D3
Data-Driven Documents codes.
-
Tencent
China tencent open source team.
from easy-rl.