大数据的相关关系分析法更准确、更不易受偏见

　　过去，总部的人员们需要先有了想法，然后才能收集数据来测试这个想法的可行性。

　　如今，我们有了如此之多的数据和更好的工具，所以要找到相关系变得更快、更容易了。

　　这就意味着我们必须关注：当数据点以数量级方式增长的时候，我们会观察到许多似是而非的相关关系。

　　毕竟我们还处于考察相关关系的初期，所以这一点需要我们高度重视。

　　在大数据时代来临前很久，相关关系就已经被证明大有用途。

　　这个观点是1888年查尔斯·达尔文的表弟弗朗西斯·高尔顿爵士（Francis Galton）提出的，因为他注意到人的身高和前臂的长度有关系。相关关系背后的数学计算是直接而又有活力的，这是相关关系的本质特征，也是让相关关系成为最广泛应用的统计计量方法的原因。

　　但是在大数据时代之前，相关关系的应用很少。因为数据很少而且收集数据很费时费力，所以统计学家们喜欢找到一个关联物，然后收集与之相关的数据进行相关关系分析来评测这个关联物的优劣。

　　那么，如何寻找这个关联物呢？

　　除了仅仅依靠相关关系，专家们还会使用一些建立在理论基础上的假想来指导自己选择适当的关联物。

　　这些理论就是一些抽象的观点，关于事物是怎样运作的。

　　然后收集与关联物相关的数据来进行相关关系分析，以证明这个关联物是否真的合适。

　　如果不合适，人们通常会固执地再次尝试，因为担心可能是数据收集的错误，而最终却不得不承认一开始的假想甚至假想建立的基础都是有缺陷和必须修改的。

　　这种对假想的反复试验促进了学科的发展。但是这种发展非常缓慢，因为个人以及团体的偏见会蒙蔽我们的双眼，导致我们在设立假想、应用假想和选择关联物的过程中犯错误。

　　总之，这是一个烦琐的过程，只适用于小数据时代。

　　在大数据时代，通过建立在人的偏见基础上的关联物监测法已经不再可行，因为数据库太大而且需要考虑的领域太复杂。

　　幸运的是，许多迫使我们选择假想分析法的限制条件也逐渐消失了。我们现在拥有如此多的数据，这么好的机器计算能力，因而不再需要人工选择一个关联物或者一小部分相似数据来逐一分析了。

　　复杂的机器分析能为我们辨认出谁是最好的代理，就像在谷歌流感趋势中，计算机把检索词条在5亿个数学模型上进行测试之后，准确地找出了哪些是与流感传播最相关的词条。

　　我们理解世界不再需要建立在假设的基础上，这个假设是指针对现象建立的有关其产生机制和内在机理的假设。

　　因此，我们也不需要建立这样一个假设，关于哪些词条可以表示流感在何时何地传播；

　　我们不需要了解航空公司怎样给机票定价；

　　我们不需要知道沃尔玛的顾客的烹饪喜好。

　　取而代之的是，我们可以对大数据进行相关关系分析，从而知道哪些检索词条是最能显示流感的传播的，飞机票的价格是否会飞涨，哪些食物是飓风期间待在家里的人最想吃的。

　　我们用数据驱动的关于大数据的相关关系分析法，取代了基于假想的易出错的方法。

　　大数据的相关关系分析法更准确、更快，而且不易受偏见的影响。建立在相关关系分析法基础上的预测是大数据的核心。

　　这种预测发生的频率非常高，以至于我们经常忽略了它的创新性。当然，它的应用也会越来越多。