Comments (7)
请问DDPG跟Chapter9里的Pathwise Derivative Policy Gradient有什么区别呢?
from easy-rl.
请问DDPG跟Chapter9里的Pathwise Derivative Policy Gradient有什么区别呢?
您好,DDPG 是 Pathwise Derivative Policy Gradient 方法的一种实现,具体可参考:
http://rail.eecs.berkeley.edu/deeprlcoursesp17/docs/lec7.pdf
from easy-rl.
Critic 则是要根据观众的反馈,也就是环境的反馈 reward 来调整自己的打分策略,也就是要更新 critic 的神经网络的参数 ww ,它的目标是要让每一场表演都获得观众尽可能多的欢呼声跟掌声,也就是要最大化未来的总收益。
您好,该句后半段 “它的目标是要让每一场表演都获得观众尽可能多的欢呼声跟掌声,也就是要最大化未来的总收益。”,感觉描述的不太恰当。因为从网络结构上来看,就像后文说的,Critic更多的是去准确评价Actor每个动作的长期收益,并不直接最大化长期收益,实际上最大化长期收益是由Actor根据Critic的评价结果来完成的。
不知道我的理解是否正确,编者请参考一下。
from easy-rl.
Critic 则是要根据观众的反馈,也就是环境的反馈 reward 来调整自己的打分策略,也就是要更新 critic 的神经网络的参数 ww ,它的目标是要让每一场表演都获得观众尽可能多的欢呼声跟掌声,也就是要最大化未来的总收益。
您好,该句后半段 “它的目标是要让每一场表演都获得观众尽可能多的欢呼声跟掌声,也就是要最大化未来的总收益。”,感觉描述的不太恰当。因为从网络结构上来看,就像后文说的,Critic更多的是去准确评价Actor每个动作的长期收益,并不直接最大化长期收益,实际上最大化长期收益是由Actor根据Critic的评价结果来完成的。
不知道我的理解是否正确,编者请参考一下。
感谢您的反馈,这句话确实不妥,已改成 Critic 的最终目标是让 Actor 的表演获得观众尽可能多的欢呼声和掌声,从而最大化未来的总收益 。
from easy-rl.
作者大大你好,DDPG代码中的OU噪声部分,里面控制布朗运动的self.sigma参数,按照初始化给的值,始终是个常数0.3,这个与注释中写的self.sigma应该是随训练步长逐步衰减是相悖的
from easy-rl.
作者大大你好,DDPG代码中的OU噪声部分,里面控制布朗运动的self.sigma参数,按照初始化给的值,始终是个常数0.3,这个与注释中写的self.sigma应该是随训练步长逐步衰减是相悖的
感谢提醒,其实这个参数可衰减可不衰减,根据调参需求来,跟dqn中e-greedy策略的e一样,注释可能没写清楚
from easy-rl.
作者你好,我有一个不成熟的理解,关于图12.4下面第一句话感觉不够严谨,这是我自己推敲出来问gpt确认的。
问题:DDPG 是 深度Q网络的一个扩展版本,可以扩展到连续动作空间。感觉这句话不是很对,因为ddpg是从pg和ac这边推倒出来的,而不是dqn这边的原理。只不过借鉴了dqn的部分**来帮助训练。所以更像是ac的一个扩展而不是dqn的一个扩展?
GPT的回答:你说得没错。DDPG是从Actor-Critic算法中推导而来,主要针对连续动作空间的问题。虽然在实现过程中借鉴了DQN中的一些**,但是DDPG的核心是Actor-Critic算法,而不是DQN。所以可以说,DDPG是Actor-Critic算法的一种扩展,而不是DQN的扩展。
你们可以看看是不是这个道理,我一直对这句话有困惑,因为他们的推倒根基不同,所以这样说更好一点:ddpg是ac的一个扩展版本,通过DQN的部分训练方法帮助训练。
from easy-rl.
Related Issues (20)
- Spelling mistake HOT 1
- DoubleDQN和DQN的update函数代码好像是一样的 HOT 1
- 怎么在Linux服务器上运行demo程序?
- the version of numpy
- 1.7.1 Gym示例 返回值增多了 HOT 3
- 第四章图4.10标注是不是有误? HOT 1
- Edit problem in Chapter3 HOT 1
- 随书代码在哪 HOT 6
- 第五章勘误 HOT 1
- 内容勘误? HOT 3
- 添加参考文献 HOT 1
- SAC代码问题 HOT 2
- 4.3 REINFORCE:蒙特卡洛策略梯度 HOT 1
- 最新的版本,可以出PDF吗 HOT 2
- value_iteration 算法不收敛 ? HOT 1
- 错别字 HOT 2
- DuelingDQN.ipynb中可能存在的两个BUG~
- 我在运行DQN代码时,初始的state总会多一个值。
- 图6.8左下角标识应该是“动作价值(Q)”? HOT 1
- DDPG算法实现出现问题
Recommend Projects
-
React
A declarative, efficient, and flexible JavaScript library for building user interfaces.
-
Vue.js
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
-
Typescript
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
-
TensorFlow
An Open Source Machine Learning Framework for Everyone
-
Django
The Web framework for perfectionists with deadlines.
-
Laravel
A PHP framework for web artisans
-
D3
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
-
Recommend Topics
-
javascript
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
-
web
Some thing interesting about web. New door for the world.
-
server
A server is a program made to process requests and deliver data to clients.
-
Machine learning
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
-
Visualization
Some thing interesting about visualization, use data art
-
Game
Some thing interesting about game, make everyone happy.
Recommend Org
-
Facebook
We are working to build community through open source technology. NB: members must have two-factor auth.
-
Microsoft
Open source projects and samples from Microsoft.
-
Google
Google ❤️ Open Source for everyone.
-
Alibaba
Alibaba Open Source for everyone
-
D3
Data-Driven Documents codes.
-
Tencent
China tencent open source team.
from easy-rl.