我正在进行 A/B 测试,我在结果中遇到了辛普森悖论(天、月、测试总持续时间)。
- 这是否意味着我的 a/b 测试不正确/不具有代表性? (一些外部因素影响了测试?)
- 如果这是问题的征兆,应遵循哪些指示?
感谢您的大力帮助。
最佳答案
如果没有看到确切的数据和您正在测试的维度,很难说,但一般来说,您希望根据未合并的数据做出决策。 This article from Microsoft给出了软件测试中辛普森悖论的一个非常清楚的例子。
您能否提供合并和未合并数据的清晰示例以及测试的简短摘要?
关于math - 辛普森悖论在 AB 测试中意味着什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2164318/