Code Monkey home page Code Monkey logo

Comments (7)

JimmyYoungggg avatar JimmyYoungggg commented on May 19, 2024

请问DDPG跟Chapter9里的Pathwise Derivative Policy Gradient有什么区别呢?

from easy-rl.

qiwang067 avatar qiwang067 commented on May 19, 2024

请问DDPG跟Chapter9里的Pathwise Derivative Policy Gradient有什么区别呢?

您好,DDPG 是 Pathwise Derivative Policy Gradient 方法的一种实现,具体可参考:
http://rail.eecs.berkeley.edu/deeprlcoursesp17/docs/lec7.pdf

from easy-rl.

Huaisheng-Ye avatar Huaisheng-Ye commented on May 19, 2024
Critic 则是要根据观众的反馈,也就是环境的反馈 reward 来调整自己的打分策略,也就是要更新 critic 的神经网络的参数 ww ,它的目标是要让每一场表演都获得观众尽可能多的欢呼声跟掌声,也就是要最大化未来的总收益。

您好,该句后半段 “它的目标是要让每一场表演都获得观众尽可能多的欢呼声跟掌声,也就是要最大化未来的总收益。”,感觉描述的不太恰当。因为从网络结构上来看,就像后文说的,Critic更多的是去准确评价Actor每个动作的长期收益,并不直接最大化长期收益,实际上最大化长期收益是由Actor根据Critic的评价结果来完成的。

不知道我的理解是否正确,编者请参考一下。

from easy-rl.

qiwang067 avatar qiwang067 commented on May 19, 2024
Critic 则是要根据观众的反馈,也就是环境的反馈 reward 来调整自己的打分策略,也就是要更新 critic 的神经网络的参数 ww ,它的目标是要让每一场表演都获得观众尽可能多的欢呼声跟掌声,也就是要最大化未来的总收益。

您好,该句后半段 “它的目标是要让每一场表演都获得观众尽可能多的欢呼声跟掌声,也就是要最大化未来的总收益。”,感觉描述的不太恰当。因为从网络结构上来看,就像后文说的,Critic更多的是去准确评价Actor每个动作的长期收益,并不直接最大化长期收益,实际上最大化长期收益是由Actor根据Critic的评价结果来完成的。

不知道我的理解是否正确,编者请参考一下。

感谢您的反馈,这句话确实不妥,已改成 Critic 的最终目标是让 Actor 的表演获得观众尽可能多的欢呼声和掌声,从而最大化未来的总收益

from easy-rl.

cugerQDHJ avatar cugerQDHJ commented on May 19, 2024

作者大大你好,DDPG代码中的OU噪声部分,里面控制布朗运动的self.sigma参数,按照初始化给的值,始终是个常数0.3,这个与注释中写的self.sigma应该是随训练步长逐步衰减是相悖的

from easy-rl.

johnjim0816 avatar johnjim0816 commented on May 19, 2024

作者大大你好,DDPG代码中的OU噪声部分,里面控制布朗运动的self.sigma参数,按照初始化给的值,始终是个常数0.3,这个与注释中写的self.sigma应该是随训练步长逐步衰减是相悖的

感谢提醒,其实这个参数可衰减可不衰减,根据调参需求来,跟dqn中e-greedy策略的e一样,注释可能没写清楚

from easy-rl.

violaBook avatar violaBook commented on May 19, 2024

作者你好,我有一个不成熟的理解,关于图12.4下面第一句话感觉不够严谨,这是我自己推敲出来问gpt确认的。
问题:DDPG 是 深度Q网络的一个扩展版本,可以扩展到连续动作空间。感觉这句话不是很对,因为ddpg是从pg和ac这边推倒出来的,而不是dqn这边的原理。只不过借鉴了dqn的部分**来帮助训练。所以更像是ac的一个扩展而不是dqn的一个扩展?
GPT的回答:你说得没错。DDPG是从Actor-Critic算法中推导而来,主要针对连续动作空间的问题。虽然在实现过程中借鉴了DQN中的一些**,但是DDPG的核心是Actor-Critic算法,而不是DQN。所以可以说,DDPG是Actor-Critic算法的一种扩展,而不是DQN的扩展。
你们可以看看是不是这个道理,我一直对这句话有困惑,因为他们的推倒根基不同,所以这样说更好一点:ddpg是ac的一个扩展版本,通过DQN的部分训练方法帮助训练。

from easy-rl.

Related Issues (20)

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.