/chapter5/chapter5

Question

qiwang067 · Answer

<blockquote></blockquote><a class="user-mention notranslate" data-hovercard-type="us

WuYunjin · Answer

感恩，整理得很清楚，不过有个小问题，查了一下好像大部分都认为PPO是on-policy的，而非off-policy?

qiwang067 · Answer

感恩，整理得很清楚，不过有个小问题，查了一下好像大部分都认为PPO是on-policy的，而非off-policy?

qiwang067 · Answer

感恩，整理得很清楚，不过有个小问题，查了一下好像大部分都认为PPO是on-policy的，而非off-policy?</

jiangweishe · Answer

<blockquote><a class="user-mention notranslate" data-hovercard-type="user" data-hover

qiwang067 · Answer

<blockquote><blockquote><a class="user-mention notranslate" data-hovercard-type="use

o00000o · Answer

您好，非常感谢整理，重要性采样那块儿我没弄明白“q(x) 可以是任何分布，唯一的限制就是 q(x) 的概率是 0 的时候，p(x) 的概率不为 0，不然这样会没有定义。假设

qiwang067 · Answer

您好，非常感谢整理，重要性采样那块儿我没弄明白“q(x) 可以是任何分布，唯一的限制就是 q(x) 的概率是 0 的时候，p(x) 的概率不为 0

Strawberry47 · Answer

谢谢博主！

Strawberry47 · Answer

PPO代码中，计算优势函数那部分（a_t += discount*(reward_arr[k] +self.gammavalues[k+1]

lyhlyhl · Answer

<a target="_blank" rel="noopener noreferrer nofollow" href="https://camo.githubusercon

qiwang067 · Answer

<blockquote><a target="_blank" rel="noopener noreferrer nofollow" href="https://camo.

Xyfcw · Answer

我看pg算法里，有对t累加的操作，为什么第三张幻灯片没有了呢？不太懂这张幻灯片里期望的含义

karrin-chen · Answer

<blockquote><a class="user-mention notranslate" data-hovercard-type="user" data-hover

xiaoliua1 · Answer

您好，作为强化学习的初学者，我从本章5.1小节的标题“从同策略到异策略”中感受到两点暗示：1、从同策略到异策略是一种优化。2、PPO算法是一种异策略算法。对于第一点我还没搞

Chuan-shanjia · Answer

您好，我有问题想请教一下。我感觉PPO相比于重要性采样的唯一区别是在约束中增加了一个约束项，使得$theta^'$与$theta$相差不大，为什么重要性采样是异策略，PPO

qiwang067 · Answer

您好，我有问题想请教一下。我感觉PPO相比于重要性采样的唯一区别是在约束中增加了一个约束项，使得$theta^'$与$theta$相差不大，为什么

wym5 · Answer

感谢分享

qiwang067 · Answer

感谢分享

客气啦~

YZH-WDNMD · Answer

请问有连续情况下PPO的实例吗

Chin-Sun · Answer

请问图5.4有出处吗？

qiwang067 · Answer

请问图5.4有出处吗？

Chin-Sun · Answer

<blockquote><a class="user-mention notranslate" data-hovercard-type="user" data-hover

qiwang067 · Answer

<blockquote><blockquote><a class="user-mention notranslate" data-hovercard-type="use

qiwang067 · Answer

请问有连续情况下PPO的实例吗

/chapter5/chapter5 about easy-rl HOT 25 OPEN

Comments (25)

Related Issues (20)

Recommend Projects

React

Vue.js

Typescript

TensorFlow

Django

Laravel

D3

Recommend Topics

javascript

web

server

Machine learning

Visualization

Game

Recommend Org

Facebook

Microsoft

Google

Alibaba

D3

Tencent