<a href="https://datawhalechina.github.io/easy-rl/#/chapter12/chapter12" rel="nofollow

<div class="snippet-clipboard-content notranslate position-relative overflow-auto" data-snippet-clip

<div class="snippet-clipboard-content notranslate position-relative overflow-auto" data

/chapter12/chapter12 about easy-rl HOT 7 OPEN

datawhalechina commented on May 19, 2024

/chapter12/chapter12

from easy-rl.

Comments (7)

JimmyYoungggg commented on May 19, 2024

请问DDPG跟Chapter9里的Pathwise Derivative Policy Gradient有什么区别呢？

from easy-rl.

qiwang067 commented on May 19, 2024

请问DDPG跟Chapter9里的Pathwise Derivative Policy Gradient有什么区别呢？

您好，DDPG 是 Pathwise Derivative Policy Gradient 方法的一种实现，具体可参考：
http://rail.eecs.berkeley.edu/deeprlcoursesp17/docs/lec7.pdf

from easy-rl.

Huaisheng-Ye commented on May 19, 2024

Critic 则是要根据观众的反馈，也就是环境的反馈 reward 来调整自己的打分策略，也就是要更新 critic 的神经网络的参数 ww ，它的目标是要让每一场表演都获得观众尽可能多的欢呼声跟掌声，也就是要最大化未来的总收益。

您好，该句后半段 “它的目标是要让每一场表演都获得观众尽可能多的欢呼声跟掌声，也就是要最大化未来的总收益。”，感觉描述的不太恰当。因为从网络结构上来看，就像后文说的，Critic更多的是去准确评价Actor每个动作的长期收益，并不直接最大化长期收益，实际上最大化长期收益是由Actor根据Critic的评价结果来完成的。

不知道我的理解是否正确，编者请参考一下。

from easy-rl.

qiwang067 commented on May 19, 2024

Critic 则是要根据观众的反馈，也就是环境的反馈 reward 来调整自己的打分策略，也就是要更新 critic 的神经网络的参数 ww ，它的目标是要让每一场表演都获得观众尽可能多的欢呼声跟掌声，也就是要最大化未来的总收益。
您好，该句后半段 “它的目标是要让每一场表演都获得观众尽可能多的欢呼声跟掌声，也就是要最大化未来的总收益。”，感觉描述的不太恰当。因为从网络结构上来看，就像后文说的，Critic更多的是去准确评价Actor每个动作的长期收益，并不直接最大化长期收益，实际上最大化长期收益是由Actor根据Critic的评价结果来完成的。

不知道我的理解是否正确，编者请参考一下。

感谢您的反馈，这句话确实不妥，已改成 Critic 的最终目标是让 Actor 的表演获得观众尽可能多的欢呼声和掌声，从而最大化未来的总收益 。

from easy-rl.

cugerQDHJ commented on May 19, 2024

作者大大你好，DDPG代码中的OU噪声部分，里面控制布朗运动的self.sigma参数，按照初始化给的值，始终是个常数0.3，这个与注释中写的self.sigma应该是随训练步长逐步衰减是相悖的

from easy-rl.

johnjim0816 commented on May 19, 2024

作者大大你好，DDPG代码中的OU噪声部分，里面控制布朗运动的self.sigma参数，按照初始化给的值，始终是个常数0.3，这个与注释中写的self.sigma应该是随训练步长逐步衰减是相悖的

感谢提醒，其实这个参数可衰减可不衰减，根据调参需求来，跟dqn中e-greedy策略的e一样，注释可能没写清楚

from easy-rl.

violaBook commented on May 19, 2024

作者你好，我有一个不成熟的理解，关于图12.4下面第一句话感觉不够严谨，这是我自己推敲出来问gpt确认的。
问题：DDPG 是深度Q网络的一个扩展版本，可以扩展到连续动作空间。感觉这句话不是很对，因为ddpg是从pg和ac这边推倒出来的，而不是dqn这边的原理。只不过借鉴了dqn的部分**来帮助训练。所以更像是ac的一个扩展而不是dqn的一个扩展？
ＧＰＴ的回答：你说得没错。DDPG是从Actor-Critic算法中推导而来，主要针对连续动作空间的问题。虽然在实现过程中借鉴了DQN中的一些**，但是DDPG的核心是Actor-Critic算法，而不是DQN。所以可以说，DDPG是Actor-Critic算法的一种扩展，而不是DQN的扩展。
你们可以看看是不是这个道理，我一直对这句话有困惑，因为他们的推倒根基不同，所以这样说更好一点：ｄｄｐｇ是ａｃ的一个扩展版本，通过ＤＱＮ的部分训练方法帮助训练。

from easy-rl.

/chapter12/chapter12 about easy-rl HOT 7 OPEN

Comments (7)

Related Issues (20)

Recommend Projects

React

Vue.js

Typescript

TensorFlow

Django

Laravel

D3

Recommend Topics

javascript

web

server

Machine learning

Visualization

Game

Recommend Org

Facebook

Microsoft

Google

Alibaba

D3

Tencent