基本上,这个问题模拟了以下内容:有一个装有50个绿球和50个红球的瓮。我可以从jar里取出球,无需更换,规则如下:每取出一个红球,我将损失一美元,每取出一个绿色球,我将获得一美元。我可以随时停止采摘。最坏的情况是我选择了所有100个,然后净选0个。问题是想出一个最优的停止策略,并创建一个程序来计算该策略的预期值。我的策略是继续捡球,而捡另一个球的期望值为正。也就是说,停止规则是动态的。在Latex中,这是图像中的递归公式:http://i.stack.imgur.com/fnzYk.jpg#include#include#includedoubleExpectedValue(doubl