我注意到有些论文提到了软代理,我认为这只是一个将熵包含在策略网络的目标函数中的代理。但现在我不再确定了..任何人都可以确认或提供其他解释吗?
最佳答案
所以,看起来确实是这样。 ai.stackexchange上被问到熵从哪里进入SAC并为感兴趣的人提供了很好的答案。
关于machine-learning - 强化学习文献中的 "soft"是什么意思?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59071022/