我们的游戏中有几个实例,我们希望在给定输出预期值的情况下随机化“支出”。例如,我们不想每次都奖励“10 个学分”,而是希望在长期内平均奖励 10 个学分,并加入一些随机性,目的是通过让它变得有点不可预测,从而让它变得更“有趣”。
随机更改它甚至使其成为正态分布很容易,但这并没有真正针对“乐趣”进行优化。 5 到 15 个积分之间的用户效用差异相对较小,但如果他们有机会偶尔赢得 100 个积分,那将是一个很大的吸引力和希望。
是否有针对赌徒优化的算法?它基本上是一个 super 简单的老虎机——我希望有人做过研究以确定是什么让这种东西上瘾和有趣,但我什至不知道从哪里开始搜索这样的东西。
最佳答案
我认为 lavin 发布的论文听起来很有趣,应该研究一下,但在对老虎机算法一无所知的情况下,我会建议一些简单的东西。简单的做法就是从两个不同的分布中随机选择,如下所示:
select a random uniform U on [0,1] if (U <= p) select a random normal from N(10,2.5) if (U > p) select a random normal from N(100,10)
在这里,您只需将 p 设置为奖励来自不太令人兴奋的分布的概率(显然 1-p 是它来自更令人兴奋的分布的概率)。您不需要为这些分布使用法线。更多制服也可以。
关于algorithm - 整数支付函数(插入 "expected"值,输出为 "fun"最大化的分布),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11798197/