正态分布是金融交易中经常用到的一个统计分布假设。这个分布假设是建立在“中心极限定理”基础上的。该定理的内容是,假设我们从任意一个总体中抽取样本量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ^2/n 的一个钟型的正态分布。
正态分布的特点是大部分数据集中在中间,少部分分散在两边。但是上述结果的实现有一个隐含条件,就是这些抽样结果彼此之间应该是相互独立的。
相互独立的意思,是前一次抽样的结果不应该影响下一次抽样的结果。最具代表性的独立抽样过程就是丢硬币,无论上一次丢硬币的结果是正面还是负面,都不会影响下一次丢硬币的可能性。因此只要丢硬币的结果够多,我们可以看到一个近似正态分布的结果。
在现实生活中,如果不涉及时间序列的某个横截面大样本,我们都可以认为是符合正态分布的“独立”条件的。比如我们测量某日收市的全部A股收盘价,就会发现他们的分布也是基本符合正态分布:大部分股票的价格集中在10-30元附近,小部分位于较低的2-3元或者较高的100元以上范围。
但是,如果我们测量的变量是彼此不独立的话,上述的正态分布就不会成立,而是会变成指数分布或者幂律分布。这两种分布都是一个内凹的月牙形:前半段的变动幅度较高但是样本较少,后半段的变动幅度低但是样本较多。
幂律分布区别于指数分布的特点是它的前后分布更为平均,数值下降速度更为“缓慢”。
现实生活中,但凡和人类活动相关的变量在时间序列上都存在一定的相关性。例如一个股票前一天的上涨往往和后一天的上涨存在很强的相关性。因此,股票的价格变动大致上是符合幂律分布的。
幂律分布的特点,一言概之就是20/80定律。一个股票在一个时间段里面的股价表现,往往是在20%的区间内完成的大涨或者大跌。剩余80%的时间段里面,它往往只是在做随机的横盘整理。
除了股票,幂律分布还广泛地分布在语言使用(20%的单词占据了80%的出现频率),财富分配(20%人群掌握80%财富)以及网络流量(20%网站占有80%点击率)等方面。
幂律分布的存在,使得我们在预测时间序列分布的变量变动时,必须要有更加大的容错区间。这是因为幂律分布的“肥尾”现象更加显著:由于存在变量之间相互影响的情况,导致极端情况更加容易发生。高涨的股价会继续上升,而超跌的股票则继续下跌。
如果我们遵循正态分布的估计来预测,那么95%的股价变动可能集中在均值加减1.64个标准差的范围内。但是因为实际上股价变动是遵循幂律分布的的,95%的股价变动可能要扩展到均值加减2-3个标准差的范围。因此建立在正态分布基础上的均值加减1.64个标准差设定的“标准预测”,实际上可能导致投资者过低卖出或者过高买入,承担了额外的交易风险。
这里面最为讽刺的一个原因,可能就是因为越来越多的人使用了“交易事件彼此间是独立性分布的”这个假设来指导交易,导致不同品种之间的独立性随着交易逻辑的趋同性而消失了!这也解释了,为什么近年来金融市场上会出现越来越多历史上从未发生过的“小概率”事件,例如价格闪崩30%、回购利率飙升10倍等。这是因为如果我们用幂律分布假设来分析波动的话,这些事件本来就属于正常概率的分布范围。导致预测出错的,不是市场,而是使用假设的交易者本身。或者说,出于贪婪而无止境追求利润和忽视风险的,人性。
来源:量化投资俱乐部