恰当的测试既要考虑到影响测试解释力的统计学概念,也要考虑到这些解释的内在局限性。不恰当的测试可能导致你空有十足信心,但实际上测试结果的预测价值缺乏保证,甚至完全没有保证。事实上,糟糕的测试可能会给出完全错误的答案。
至于历史模拟为什么充其量只是对未来的粗略估计,大部分原因已经在第十一章中解释过。本章要讲的是如何提高测试的预测价值,在可能的范围内得到最好的粗略估计。
通过样本特征推断总体特征是统计学中的一个领域,也是历史检验结果的未来预测价值的理论基础。其中的核心观点是,如果你有足够大的样本,你就可以用这个样本的情况去近似推断总体情况。因此,如果你对某一种特定交易策略的历史交易记录有充分的研究,你就可以对这种系统的未来潜力得出结论。民意调查者们就是用这样的方法来推测广大民众的看陆的。例如,他们可以从某个州随机抽取500个人进行调查,借以推测整个州的选民持何种观点。类似的,科学家们可以根据一个相对较小的病人群体来判断某种药物对某种疾病的治疗效果,因为这样的结论是有统计学依据的。
样本分析在统计学上的有效性受两大因素的影响:一个是样本规模,一个是样本对总体的代表性。从概念上说,许多交易者和系统测试新手知道样本规模的意思,但他们以为样本规模仅指他们所测试的交易次数。他们并不明白,假如某个法则或概念仅适用于少数几次交易,即使他们测试了上千次交易也不足以确保统计学上的有效性。
他们也常常忽视了样本对总体的代表性,因为这是个复杂的问题,没有一定的主观分析是很难衡量的。系统测试者假设过去的情况对未来的情况有代表性,如果这是事实,而且我们有足够大的样本,我们就可以从过去的情况中得出结论,并且把这些结论应用于未来的交易。但如果我们的样本对未来不具代表性,那我们的测试就毫无用处,对系统的未来表现也没有任何的指示意义。因此,这个假设至关重要。即使500人的样本足以告诉我们谁能当选新一任总统,而且使用代表性样本的误差幅度不过2%,在民主党全美大会中随机抽取的500个人能反映全美选民的意向吗?当然不能,因为这个样本并不能代表总体——它只包含民主党人,但真正的选民还包括很多共和党人。共和党人的投票对象也许与你的民意调查结果不一致。如果你犯了这样的取样错误,你也能得出结论,或许还是你希望看到的结论,但这并不一定是正确的结论。
民意调查者们知道,一个样本对整个总体有多大的代表性是个关键问题。用不具代表性的样本得出的调查结论是不准确的,而犯下这种错误的调查者会被炒就鱼。在交易世界中,这也是一个关键问题。遗憾的是,交易者与民意调查者们不同。民意调查者们大多都懂抽样统计学,但交易者们大多不懂。在这方面,交易者们的近期偏好也许就是最常见的迹象——交易者们只注重近期发生的交易,或是仅用近期的数据作历史测试,这就像是在民主党大会上抽取选民样本一样。
短期测试的问题在于,市场在这段较短的时期内可能仅出现了一两种状态,而不是我们在第二章中所说的全部4种状态。比如,如果市场一直处于稳定波动的状态,那么均值回归和反趋势策略的效果会非常好。但如果市场状态改变了,你所测试的方住可能就不再那么有效了。所以,你的测试方格必须尽可能地提高你所测试的样本对未来的代表性。