搜索

ddpg算法优缺点

原创 | 2022-12-04 17:52:47 |浏览：1.6万

ddpg算法优点:是sample efficiency，DDPG的actor crtic均可以off-policy，而gradient estimator由于deterministic policy也确实是无偏的，是可以continuous control。DPG的actor是通过SGD去解max-Q的(而不是遍历)，所以也能做continuous control。

缺点:第一点是deterministic policy，意味着不能很好的explore state Action space。

猜你想问

campbuddy黑屏了怎么办 campbuddy黑屏解决办法是：1/6重机器重启以后，按f8按钮直距，进入安全模式，然后启动最后一次的正确配置。2/6计算机修复状态。可以进入启动进行修复。这一修复过程是自...
功放运放4558dd和5532哪个好 5532比4558好。这二者都是8个引脚的双运放，单芯片即可处理两个声道的信号。4558普遍应用在低档功放电路中，而使用5532的设备相对更加高端。但如今5532已属过时型号，...
用了ddu后还是无法安装驱动答:用了ddu后还是无法安装驱动，一般情况下，基本是因为系统中的显卡驱动没有完整清除导致的，手动清除比较麻烦，因为可能注册表也可能存在，所以使用DDU是最方便快捷的方...
镁光ddr43200普条可以超频吗可以。可以。先默认参数下直接3200走起，1.2V内存电压居然一次就开机了，镁光有长进。ddr4 2666的内存，颗粒是镁光B die，无论怎么改时序加电压，最高只能2666。...
pdd商家怎么联系人工客服首先打开拼多多商家，选择商家客服的选项，在弹出的页面里点击在线客服，在聊天框里输入人工客服5-6次就会出现联系人工客服选择我们需要处理的问题等待即可，人工客服就...

XML地图 | 网站地图

声明：本站所有内容均只可用于学习参考，信息与图片素材来源于互联网，如内容侵权与违规，请与本站联系，将在三个工作日内处理，联系邮箱：47085,1089@qq.com