algorithm - 整数支付函数(插入 "expected"值，输出为 "fun"最大化的分布)

我们的游戏中有几个实例，我们希望在给定输出预期值的情况下随机化“支出”。例如，我们不想每次都奖励“10 个学分”，而是希望在长期内平均奖励 10 个学分，并加入一些随机性，目的是通过让它变得有点不可预测，从而让它变得更“有趣”。

随机更改它甚至使其成为正态分布很容易，但这并没有真正针对“乐趣”进行优化。 5 到 15 个积分之间的用户效用差异相对较小，但如果他们有机会偶尔赢得 100 个积分，那将是一个很大的吸引力和希望。

是否有针对赌徒优化的算法？它基本上是一个 super 简单的老虎机——我希望有人做过研究以确定是什么让这种东西上瘾和有趣，但我什至不知道从哪里开始搜索这样的东西。

最佳答案

我认为 lavin 发布的论文听起来很有趣，应该研究一下，但在对老虎机算法一无所知的情况下，我会建议一些简单的东西。简单的做法就是从两个不同的分布中随机选择，如下所示:

select a random uniform U on [0,1]
if (U <= p) select a random normal from N(10,2.5)
if (U > p) select a random normal from N(100,10)

在这里，您只需将 p 设置为奖励来自不太令人兴奋的分布的概率(显然 1-p 是它来自更令人兴奋的分布的概率)。您不需要为这些分布使用法线。更多制服也可以。

关于algorithm - 整数支付函数(插入 "expected"值，输出为 "fun"最大化的分布)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/11798197/

相关文章：

algorithm - 检测与其余数据非常分散的点