大数据与熵临界分析

2020/09/30 01:14

大数据与熵：临界分析

大数据的践行者们不仅在思维上进行了转变，在数据处理上同样采取“大数据”的方法：分析全体而不是样本，不追求精确性，“知其然，不知其所以然”（注：第三句是笔者归纳，原文意思是只要知道“是什么”，不必知道“为什么”，或只问相关性，不问因果关系）。同时宣布传统的抽样方法已经过时，不能适应当今互联网信息社会的要求。

上述断言过于武断。如果断言的目的是为了强调面对信息爆炸，人们必须不断地寻找新的方法，包括“大数据方法”，来分析和处理数据，那么如何夸大和渲染，都是可以理解并接受的；但是，如果断言的目的是为了劝导人们放弃传统的抽样理论，转而皈依“大数据思维”，这就值得商榷。

纵观科技史，人们对物体运动规律的研究，牛顿定律曾被认为绝对正确。但随着科学家们对微观粒子世界，高速运动（近似光速）物体的研究，牛顿定律不再适用，而代之以量子力学和相对论。但这并不意味着牛顿定律的死亡，在人们生活所及的物理社会里，仍然是牛顿定律起主导作用。

信息社会也是如此，信息的不断膨胀、变化、繁杂使得传统抽样统计方法显得力不从心，于是所谓的“大数据思维”出现了。但“大数据”究竟是要取代传统方法，还只是传统方法的补充，有待于进一步的观察。

质疑:

对于“大数据思维”的三个转变，可以提出三点质疑：首先，如果通过分析少量的样本数据就可以得到事物的准确性质，是否还有必要花费成本去搜集全体数据？其次，如果能够得到准确数据，还有必要刻意追求不准确吗？最后，如果能够了解到因果关系，会视而不见，只去分析相关吗？

合理的解释是：首先，如果通过分析少量的样本数据无法得到事物的性质，人们不得不花费更多成本去搜集全体数据来分析。其次，如果得不到准确数据，人们不得不接受不那么准确的、差强人意的数据来进行分析。最后，如果不能够了解到因果关系，人们会退而求其次，以分析相关关系来了解事物。

基于上述解释，大数据方法不应该是刻意为之，而应该是不得已而为之。换言之，大数据方法仅在传统的抽样统计方法不起作用的时候有其用武之地。这就像只有当物体的运动速度接近于光速时我们才用相对论取代牛顿定律。

当然，不可否认，在飞速发展的网络空间里，人们的研究对象，即数据，变得越来越庞大，越来越繁杂模糊，越来越非结构化，这一大趋势使人们乐于接受大数据思维。举个不太恰当的例子，当人们不能解释许多自然现象时，更容易接受某种宗教的解释。

在信息爆炸的今天，传统的抽样统计方法不仅不应该被抛弃，而应该通过一系列改进得到加强，成为高效、实时反映事物状态的主要手段之一。同时，我们欢迎并乐意采用新的方法，比如如日中天的“大数据方法”以及可能的“模糊数据方法”等等。

至此，一个关键问题出现了：面对一个具体事物，如何确定应该用传统方法还是大数据方法？当物理学家研究微观粒子之间的作用力时，会采用量子力学；研究一个桥梁受力时，会采用牛顿力学。信息或数据专家们有这样的理论或判别标准吗？本文下一小节将对此展开讨论。

分析：

首先，考察一般意义上的选取样本大小的规则。

定理：设X1,X2…Xn为独立同分布随机变量，分布为p(x), x∈(x1,x2..xn),则一般抽样样本大小S为：

S = λ*2 ^H(X) …………………………(1)

其中：λ是常数，H(X)= -∑p(xi)*log
p(xi),即随机变量X的熵。

例1：了解总体为N个人对某事物的看法，是或否两个选择，其熵约为1，（假设两种回答人数基本相当），则在一定的置信度、置信区间的要求下（本文不做精确的抽样理论推导，仅举例定性说明，以下同），S随着N的增加（比如到10万）逐步趋向为一个常数；400，此时λ=200。可以证明，当其它条件不变，随着熵增加，S指数增加，λ保持不变。

换一个方式解释λ。

定义1：λ是在一次抽样中，“典型状态”出现的期望值。

定义2：典型状态指该状态出现概率等于或近似等于相同熵值平均分布下各状态出现概率的那个状态。

举例来说，X服从一个8状态平均分布，其熵为3比特，其每个状态都是“典型状态”，其出现概率都是1/8。

如果X服从一个12个状态的分布，其状态分布概率为

p（x1,x2,x3,x4,x5…x12）=(1/3，1/5，1/6，1/7，1/8，1/15…1/50)，H（X） ~=3 比特。其典型状态是 x5, 出现概率为1/8.

基于上述规定，如果λ取1，H（X）=3，则样本大小S =8，在一次抽样中，典型状态（出现概率1/8）出现次数的期望值为1，等于λ。但状态出现是依概率的，尽管期望值为1，但观察值也可能为0，2，3…，这样的估计误差过大。

如果λ取100，H（X）=3，则样本大小S =800，在一次抽样中，典型状态出现的期望值为100，等于λ。其实际观察值在极大概率下落在95-105之间，如果误差可接受，取λ=100，否则，加大λ。

另外一个影响λ的因素是分层。将例1中的总体N分为高收入（20%），中等收入（50%），低收入（30%）3类人来调查对某事物看法。如果采用纯随机抽样，要保证每层的分布得到准确的估计结果，就要使得最少个体的层能够抽到足够数量，因此λ要乘5（20%的倒数）。但事实上，人们更关心总体结果，兼顾分层的结果，因此，为了节约成本，实际的λ修正系数会小一些，比如取3，这时，样本大小约为1200 。这时，不管总体是10万人还是3亿人，对1200人的样本进行的调查结果可以在3%的误差范围内反映出实际情况。

通过以上分析可以看出，λ是一个100-1000之间的常数，具体数值取决于调查方希望在一次抽样中得到多少个典型状态（或分层的）的个体（期望值），并满足误差要求。在确定了λ之后，样本的大小就只和系统熵相关，呈指数增长关系，即公式（1）。

采用传统抽样方法时，研究对象的随机状态和变化有限，或通过人为的分类使之变得有限，导致熵值很小，因此，使用较小的样本就可以准确地估计总体。加之那时的取样成本很高，调查方要花费很大精力设计抽样方案，在不失精度的前提下，使得样本规模尽量缩小。

互联网时代的状况恰恰相反，研究对象是互联网的行为，获取数据非常容易，因为数据已经产生，不管你用不用它，它就在那里。而互联网上许多研究对象的状态无限多，也很难统计归类（比如“长尾现象”），系统熵值很大，导致样本规模巨大或根本无法确定规模。此时，采用总体分析，即大数据方法就具有优势。当然，即使总体数据已经存在，对其整理和运算也相当消耗资源。一些情况下，采用抽样的方法仍然是最佳的选择。

现在，让我们尝试回答上节最后提出的问题：面对一个具体问题如何选取分析方法？

首先，考察研究对象所需的数据是否已经在应用中自动被收集，比如，用户的线上购物行为。如果不是，比如线下购物，需要研究者设计方法去收集数据，此时，应该采用传统抽样方法。

其次，面对互联网已经（或可以实时在线）获得的海量数据，当研究对象熵值小于5，建议仍采用传统抽样方式，可以得到更高效率；当熵值介于5-15之间，总体分析或抽样分析都可以考虑，视具体情况；熵值大于15，建议采用总体分析，即大数据方法。

上述建议仍然很抽象。在下一小节中，我们借用长尾理论的描述方法，将统计研究对象分为4种类型，分别讨论适用的方法。

分类：

第一类：“无尾模型”。此时，研究对象的状态明确且数量有限，出现概率最小的状态仍然具有统计意义。如民主投票，状态有赞成、反对、弃权3个状态，或是有限个被选举人的支持率；再如收视率调查，状态有几十或几百个电视台。统计结果的描述方法通常是分布直方图，即将状态出现的频次从高向低顺序以柱状图的方式表示出来。连接直方图的各个顶点，就得到总体的概率分布曲线。按照相同顺序排列频次累计数并将顶点相连，就得到所谓“帕累托曲线”。两个曲线表现为凹函数，或二阶导数恒为负值（借用连续的分析，实际上是离散的），在曲线尾部没有出现变化。随着状态数的增多，“二八现象”会显著，即少数状态（比如20%）占到了多数频次（比如80%）。

第二类：“翘尾模型”。此时，研究对象的状态较明确且数量较多，出现概率很小的状态相对失去统计意义，在统计上把这些状态统一归类为“其它”状态。绝大多数情况下，由于其它状态是由许多状态构成的，其出现概率的和高于排列在前的某些较小概率状态的概率，因此，总体概率分布曲线及帕累托曲线在尾部会出现上翘，即所谓“翘尾模型”。为了保证统计效果，其它状态总的概率一般不超过5%。这时，二八现象极为显著，便于“ABC分析”和重点管理，因此翘尾模型在企业管理上应用极为广泛。如质量管理（缺陷分析），库存管理（零配件库、商店、卖场，特别是实体书店，可与后面网络书店的长尾现象比较）等。

以上两种模型运用传统的抽样方法均可以取得良好的统计结果。随着对象状态数量增加，并不存在明显界限。以收视率调查为例：选择3万个调查样本户进行收视调查，当有二、三十个电视台台时，收视率最低的电视台也能得到显著的观察值，可以认为是无尾模型。当电视台数量超过100，许多收视率达不到0.3%的电视台在一次抽样中就无法达到可以保证相对精度的观测值，此时，既可以扩大样本范围来满足精度要求，也可以将小于0.3%的状态合并为“其它”，采用“翘尾模型”。

随着三网融合的进展，绝大多数电视机将具有双向功能，总体数据变得唾手可得，此时，抽样方法仍然有效，它可以用来做实时的、频繁的统计，而采用总体的大数据方法可以定时进行校正，毕竟处理几万个样本比处理几亿条总体数据要迅速、便宜得多。

第三类：“长尾模型”。此时，研究对象的状态不够明确且数量很多，出现概率很小、相对失去统计意义的状态众多。但是，这些小概率状态的全部或部分和占到总体状态的30%-40%，甚至更多。反映在概率分布或帕累托图上就形成一个长长的尾巴（渐进于X轴或Y=1的直线）。如果采用翘尾模型，用抽样的办法，会使总体的30%-40%，甚至更多的状态无法描述。从而必须采用全体数据即大数据的方法。

举例来说：一个实体书店的货架上有1000种书籍，经过统计，老板会发现，卖得好的前200种书占到其销售额的80%以上，而卖得不好的后500种书的占比甚至不到5%，统计上可以并为一类。这就是所谓“二八现象”，老板采用抽样统计的方法可以掌握占销售额95%的书籍的分布情况。而一个网络书店的数据库中可能列有20万种书籍，其中热卖的200种占销售额的20%，前2000种共占到40%。而余下的19.8万种书籍构成其余60%的销售额，但每种份额是如此之小，以至于无论如何扩大样本，都不易被显著地观察到。在这种情况下只能采用大数据方法，否则，60%的销售额都不知道从哪里产生的统计还有什么作用。

第四类：“全尾模型”。此时，研究对象的状态很不明确、甚至未知，而数量极多甚至无限，正常情况下，无论如何选择样本都无法在统计意义上显著地得到各个状态的观察值，一旦可以观察到，说明出现异常。其分布曲线是无限接近且平行于X轴的直线。所以我们也可以称之为“平尾”。

典型的例子如关键词搜索，事先无法确定状态，即系统事先不知道用户要搜索什么，且搜索的内容可能无限多，因此无法事先设计抽样模型。采用分析全体的大数据方法，可以在出现异常时即使发现并加以分析。比如，某种疾病或药物的名词在某一地区的搜索量大增，就可以预测这一地区可能流行某种疾病。事实上，谷歌的大数据分析在这方面已经比传统的流行病预测机制和机构做得更好、更有效率。

大数据方法被认为最适于做预警或预测某种人们事先不知道的状态，而抽样统计则一般是根据已知的状态安排抽样规则。

以上四种模型分析与上节基于熵的分析是一致的。其中无尾和翘尾模型的熵值分别为小于6、介于5-15之间；而长尾和全尾模型的熵值分别为大于15、趋于无穷。前二者多采用传统抽样分析，后二者只能采用大数据方法。更为重要的是，随着量变引起质变，大数据方法会带来更多、更新的概念、理论和技术。