听其言,观其行,还要看其搜索数据:大数据揭
在这个数字互联的时代,我们所有人每天都会产生大量的数据点。我们搜索的内容,我们是怎么搜索的,我们购买的东西,我们阅读的信息,我们喜欢什么,不喜欢什么,我们会选择和什么样的人交往等等这些,都会形成一条可以量化、筛选和批量分析的数据流,然后与其他人的数据汇集起来,就能反映数据背后隐藏的趋势,有时候有些事情甚至连我们自己也意识不到。
这些数据可能为我们的社会提供了一种更好的方式,来真正了解人们的本质,作家塞斯·斯蒂芬斯–戴维维茨( Seth Stephens-Davidowitz)在他的新书《人人都在说谎:大数据、新数据和互联网告诉我们自己是谁?》(Everybody Lies: Big Data, New Data, and What the Internet Can Tell Us About Who We Really Are)中提出了这一理论供人们思考。斯蒂芬斯–戴维维茨曾是谷歌的一位数据科学家,如今在沃顿商学院担任客座教授。近期他也来到 “沃顿知识在线”节目,与我们探讨应该以怎样的方式分析大数据才能揭示人们的政治观点、健康状况和偏见等。
以下为编辑后的访谈记录。
沃顿知识在线:数字足迹(digital footprints)可以在很大程度上反映我们的个人特征,这一点毋庸置疑,但是我觉得在某种程度上,人们还是不相信能够从这些数据中收集到那么多信息。
塞斯·斯蒂芬斯–戴维维茨:是的。有些人对数据的看法还很传统。他们觉得资料就像一个代表性调查:调查的问题很明确,问题后面有可以打勾的方框,人们的答案也很明确。我觉得不走寻常路的因特网世界让他们觉得有些不自在,在这个世界里数据没有一定的结构,跟他们习惯看到的资料也有些区别。
沃顿知识在线:是不是有些人还觉得自己的数据安全度比实际情况要高?
斯蒂芬斯–戴维维茨:我觉得人们对大数据的力量肯定还有疑虑。因为数据的预测性太强了,企业可以利用数据来支配人力。我在书中就谈到了这一点。举一个例子,如果你要申请贷款,企业可以根据你在贷款申请书上的文字描述,就能确定你能否按时还款。比如,如果你在贷款请求中用了“上帝”这个字眼,你逾期还款的可能性比起不用这个词的人是2.2倍,你不还款的可能性也是2.2倍。所以如果有些人在贷款申请结尾写了“上帝保佑你”,这样写就挺吓人的,企业就不会给他们贷款,这样企业就能把资金节省下来。
沃顿知识在线:在整本书中,你谈到了我们这个社会所面临的一些较大的问题,比如种族主义和虐待儿童。在这些领域中存在着各种各样的数据点,它们不是偏向这一方,就是偏向那一方。
斯蒂芬斯–戴维维茨:是的,现在网络上充斥着各种芜杂的信息。有些特定的信息源,比如谷歌,是我比较侧重的。人们有时候真的很诚实,有些事情他们可能不会告诉任何人,但却会告诉谷歌。所以当涉及到你刚才提到的这些非常重要的领域,我们真的能对自己的本质有新的发现。
沃顿知识在线:你在书中谈到了一个领域:性。
斯蒂芬斯–戴维维茨:我想说大数据实在太强大了,它把我变成了一个性学专家,而性并不是我所擅长的专业领域。关于性显然有许多隐藏的内容,因为这是一个让人很难为情的禁忌话题。我觉得通过谷歌搜索,我们就能看到人性百态。
沃顿知识在线:你也谈到了种族主义,谈到了种族主义如何真正地浮出水面,不是在2008年总统竞选期间,而是在奥巴马总统当选后立刻就出现了。
斯蒂芬斯–戴维维茨:这项资料中包含了一个令人不安的因素。一般来说,如果人们撒谎只是为了面子上更好看,那么我们对人性的看法就会变得过于乐观。但是如果我们知道真相的话,其实在很多领域我们都能看到人类的阴暗面,种族主义只是其中之一。真的很令人震惊。我从这项资料中发现的最令人惊讶的一个事实就是,人们在搜索中所表现出来的种族主义倾向程度令人震惊,人们主要搜索的是取笑非裔美国人的笑话。是的,这是一个很大的话题,奥巴马当选后,关于他的搜索非常令人难堪。
沃顿知识在线:人们长期以来持有这样一种观点,种族主义更多地存在于南方,但你的数据显示并非如此。
斯蒂芬斯–戴维维茨:是的,如果你做公开调查或者从传统观念出发的话,种族主义的确被看做是南方的问题。但我觉得这可能是因为,在南方人们没有很大必要来隐藏种族主义。如果你看看谷歌的搜索数据,谷歌的数据更真实,你会看到很多种族主义最严重的地区其实在北方,比如宾夕法尼亚州、东俄亥俄州、纽约北部和密歇根工业区。如今划分种族主义真正的界限不是南方和北方,而是东部和西部。
沃顿知识在线:如果人们或企业能以一种更加合理和有效的方式来使用这些数据,你觉得这会给国家和社会带来哪些重要的影响?
斯蒂芬斯–戴维维茨:这要分为积极影响和消极影响,我不知道哪一个会成为现实。消极的情况就是企业会利用这些数据来支配人,让他们花更多自己还没赚到口袋里的钱,或者在他们的网站上花更多时间,而事实上他们并不需要登陆这些网站。积极的情况就是我们可以利用资料来了解一些非常重要的领域,例如健康、种族主义、性取向等,从中学习如何改善我们这个社会。
沃顿知识在线:健康这个角度非常有趣。我们能够从数据中获得信息,这些信息又会说明我们治愈疾病,或者采取更有效的预防措施,在疾病变得更糟之前遏制它的发展,这些都能对这个国家的人民和医疗保险经济产生重大影响。
斯蒂芬斯–戴维维茨:是的。在我最喜欢的一项研究中,他们利用搜索资料,寻找那些曾经查找过“刚刚诊断为胰腺癌”的人。你知道,当人们搜索这些内容的话,他们多半刚刚被确诊为胰腺癌。你把这些人和那些从未被诊断为胰腺癌的人比较,研究之前几个月他们都搜索了哪些症状。然后研究人员发现了一些极其微妙的规律,这些就是一个人最终是否会被确诊为胰腺癌的指示因素。
例如,如果你搜索“消化不良”加“肚子疼”,这就是胰腺癌的一个危险标志。如果你只搜索“消化不良”,这就不是一个危险信号。这些规律真的极其微妙,如果没有庞大的数据集根本不能发现,它几乎预示着一种新型药物的诞生。
沃顿知识在线:你的书中也提到了另一个可能彻底改变大数据和我们对大数据的理解的现象,谷歌趋势(Google Trends)。
斯蒂芬斯–戴维维茨:是的,这是个很有趣的现象。谷歌趋势可以向你展示人们在哪里搜索不同的术语,他们经常在哪些地方搜索,通过这些你就可以知道长期以来人们是如何搜索的。但谷歌趋势刚开始出现时,人们并没把它当回事儿。它并没有被看作一个学术性的信息来源,而是一个对谷歌来说可能更加有趣的公关信息源。你可以随便玩玩,了解现在流行哪些趋势,哪些名人最受欢迎。但是随着了解的信息越来越多,我们知道谷歌趋势并不是一个玩笑。就像我说的,它可能是有史以来收集到的最重要的人类心理数据集,对研究者来说这也绝对是一个重要的研究工具。
沃顿知识在线:但也有很多研究声称所谓的消费者调查资料可能并没有人们相信的那样准确。
斯蒂芬斯–戴维维茨:是的,我觉得调查本身也有很大的漏洞。我越看这些调查,心里的疑问就越大,哪怕只是一些很小的事情。最近我看了一些关于潜在汽车购买行为和实际汽车购买的调查资料,它们根本就不匹配。人们说他们会买车,但实际上没买,或者他们没说自己要买车,但实际上却买了。所以我认为这些调查的价值被大大高估了,而且随着新的因特网数据变得越来越可用,它们在未来的作用也会大大降低。
沃顿知识在线:这也就是为什么很多企业越来越看重数据分析,希望通过数据更透彻地了解消费者的心理,对吗?
斯蒂芬斯–戴维维茨:是的,我觉得你在面对这些数据的时候也必须小心。针对每个数据源,你都要思考:这个数据源是什么?人们在向我提供这项数据的时候,他们的动机是什么?我觉得有很多人,不管什么时候看到数字或数据,他们都会说,“嗯,这些数据是可信的”。但很多数据源都是垃圾,原谅我的用词。很多资料真的不可靠,但也有很多资料十分可靠。人们点击的,购买的,搜索的,这些数据与很多其他数据源相比会更有价值。
沃顿知识在线:回到政治领域,你在书中提到这方面的资料和因特网上的趋势的确显示特朗普会在总统选举中胜出,不仅是共和党初选,还有大选,对吗?
斯蒂芬斯–戴维维茨:我觉得肯定有迹可寻,但是不好回答。人们常常向我提出这样的问题,“你能通过谷歌搜索来预测选举吗?”这有点儿难,因为谷歌搜索只有四次选举资料,要预测选举规律挺难的。
但我觉得在四到八年内,我们就可以利用这些数据来准确预测选举。我在书中已经提到了,在选举之前我就已经掌握一些线索,特朗普将会赢得这场选举。有几件事情给我提了个醒。首先,根据人们在选举前是否搜索“如何投票”或“在哪里投票”,你就知道他们是不是真的会去投票。别信人们在调查时说的话,他们说自己会投票,但其实不然。每个人都说自己会去投票,但很多人并没有去。数据显示非裔美国人的投票人数将会比之前的选举少很多,这对希拉里非常不利。
还有一个我觉得非常有趣的微妙线索:从人们搜索候选人的顺序,你也可以知道他们会怎么投票。如果人们搜“特朗普/克林顿票数”,他们就很可能给特朗普投票。如果人们搜“克林顿/特朗普票数”,则很可能会给克林顿投票。在中西部的某些关键州有很多人搜索特朗普/克林顿票数。
沃顿知识在线:如果只搜索克林顿的话,这有没有什么含义,不管有没有包括特朗普?
斯蒂芬斯–戴维维茨:没有,我觉得只搜索克林顿的话没什么意义,你搜索她可能是因为你爱她,也可能是你恨她。你搜索特朗普也可能是因为你爱他,或者你恨他,这不能说明什么。必须有些更微妙的意味。但是你搜索候选人的顺序的确可以起到预测的作用。它甚至可以说明人们到底会支持哪个候选人,即使人们自己都没意识到,因为他们可能觉得自己还没决定,但是如果他们搜索过“特朗普/克林顿辩论”“特朗普/克林顿票数”“特朗普/克林顿选举”,他们很有可能给特朗普投票。
沃顿知识在线:你是否觉得我们正在迈向一个点,到时候人们将会对数据有着更好的认识和理解?因为如果说我们根本没有真正了解这些数据,其实也没什么错。也许想要掌握这些数据,的确需要经历一个渐进的过程。
斯蒂芬斯–戴维维茨:我觉得我们会很快到达那个点,而且不需要太多的人。因为一开始说到你可以通过人们在因特网上的行为来了解这个人,大家都觉得挺荒谬的,这个话题并没有深入学术研究领域,虽然应该如此。但是人们对它的研究肯定越来越多,这个领域里的方法论也越来越多。我们真的很接近了,而且我们已经有了一定的超越,不再只是觉得“这挺酷的”,而是通过这些数据真正地了解我们是谁。
沃顿知识在线:所以这对美国经济来说,会成为一个增长领域吗?那些会分析数据,了解如何利用数据来真正影响企业和人们的人才会变得抢手吗?
斯蒂芬斯–戴维维茨:肯定会的。但我觉得这种趋势比人们想象的还要隐秘。在我的沃顿商学院课堂上这个问题经常出现。当你思考“大数据”的时候,你觉得这是一个技术性非常强的事物,里面除了数据还是数据,是那些左脑发达的书呆子的专利。它肯定属于技术领域,这一点我承认,但它也是一个出人意料的创意过程。你要知道问什么问题,知道如何从数据中挖掘主旨信息。你不能教别人怎么怎么做,它就像一门艺术,需要你慢慢学习和掌握。而且我也不觉得你只要找个数据科学家来解决这个问题就完事了,没那么简单。它要复杂得多。
沃顿知识在线:这让我觉得在未来几十年里,我们将会看到越来越多的组织与数据科学家以及各种各样的商业部门建立合作关系,努力掌握数据的意义和用途,用它来解决世界上的一些大难题,比如水资源的获取,或者对抗疾病。
斯蒂芬斯–戴维维茨:这种想法真的很让人振奋,数据蕴含的各种可能性让人心驰神往,尤其是在一些大的领域。因为这些新数据是存在的,它们是可靠的,利用它来探索大的问题,树立远大的志向也是说得通的。如果用大数据来解决小问题就没什么意义了。
沃顿知识在线:如果人们能够稍微再了解一些大数据会怎样呢?我们探讨了很多关于数据如何影响人们和企业的话题。未来的人们是否能够更好地理解数据?
斯蒂芬斯–戴维维茨:我觉得可以。数据通常比我们更了解我们自己。比如网飞(Netflix)刚刚成立时问人们,“接下来几天你们将会观看哪些视频?我们知道你们现在在看什么,但是这个周末呢?你们想看什么?等到周末快来的时候我们就会提醒你。”当你问的时候,人们说“我会看纪录片”或者“我会看法国先锋派电影”。周五的时候,你把那些片子排在列表里,人们却会根本视而不见,继续看他们经常看的低俗喜剧或爱情片。所以网飞公司认识到,他们也应该忽略人们说的话,转而关注人们真正看了什么,然后让算法来说话。
当说到我们以后要做什么的时候,我们总会做些糟糕的预测。几乎所有人的态度都太过积极。我觉得数据可以让我们更加脚踏实地。
沃顿知识在线:这也可以帮助我们更清晰地了解我们的国家和中国、法国或德国比起来有哪些区别。当你从全球视角着眼思考这个问题时,不论是在商业界,还是政治领域,或者各种各样的前沿领域,都会产生相应的影响。
斯蒂芬斯–戴维维茨:那是肯定的。比较不同国家的差别是件很有趣的事情,这些都可以在数据中反映出来。当然,从商业角度来看,某些国家的数据就非常糟糕了。比如尼日利亚,她曾经是非洲最大的经济体,某次他们意识到自己国家的GDP估值有某些缺陷,然后一夜间把估值改变了90%。所以某些国家的传统数据非常糟糕。而那些新出现的新数据可以大大提高我们对这些国家的认识。
我还提到了夜晚灯光数据,它可以根据晚上有多少灯光被点亮来衡量一国的经济。我也提到了Premise公司,这家公司的主要活动就是拍摄发展中国家的经济活动图片,通过这些图片也能估计国家的通胀率、利率还有很多其他数据。
沃顿知识在线:改变这些因素的潜力是巨大的。它们似乎能够为你提供更好的预测工具,用于促进全球各个经济体的经济增长或避免风险。
斯蒂芬斯–戴维维茨:是的,我觉得我是一个非常愤世嫉俗和多疑(cynical and skeptical)的人,所以当我听到“大数据”这个词语,或者其他流行语时,我就觉得“这也太荒谬了吧。它也就是昙花一现,只能风靡一时”。但是我研究大资料已经有五年了,我跟这个领域里的很多人都交谈过。我还是常常为自己的发现感到震惊不已。大资料不是一时的风尚。它真的掀起了一场革命,改变了我们对人和对这个世界的认识和理解。
沃顿知识在线:你说自己是一个愤世嫉俗的人,但你的生活又在资料中。所以说真的,数据就是真相,对吗?
斯蒂芬斯–戴维维茨:是的,我觉得从某种程度上来说,数据肯定了我的怀疑,你不能相信别人告诉你的事情。在很多传统数据源中,人们给你这个数据都是有一定驱动因素的。但是如果你知道哪些数据是正确的,你就可以从中学习,我对这一点毫不怀疑。
沃顿知识在线:现在你每天都沉浸在数据里。我的意思是,现在这已经是一个开放的领域了,里面包含了各种各样的数据,还有任何你想要改变的事情。你可以从一个企业到另一个企业,每天不停地收集资料,对吗?
斯蒂芬斯–戴维维茨:是的。我在沃顿商学院的课程结束时,组织了一个小组演示,我给他们的话题非常宽泛。我说,“想象一个教育领域的新企业,或者健康领域的新企业,或者政治领域的新企业,如何利用新数据和大数据工具来说明你实现企业发展。”在每场演示结束时,所有学生都提出了这个问题,“为什么这不存在?这说不通,应该存在的。”通常情况下,要想得出新的点子是很困难的,因为聪明的人穷尽一生都在寻找那些应该存在的、人们希望拥有的事物。但我觉得有了大数据,要想在一个大领域找到一个又新又好的点子将会是一件非常容易的事情。
沃顿知识在线:所以你觉得前景是积极的,对吗?你接触的都是新时代的学生,他们将会步入社会。他们知道这些数据点的重要性,他们也会跟我们一起继续建设和发展这些资料。
斯蒂芬斯–戴维维茨:这是一件非常激动人心的事情。当然还有一个担忧,那就是道德问题。企业有时候发展得太过强大,就会压榨消费者的剩余价值,因为他们比消费者更了解消费者。对我来说,这无疑是一个巨大的担忧。
沃顿知识在线:你如何防止这种情况?
斯蒂芬斯–戴维维茨:这需要做很多工作。我觉得法律和道德领域的很多人都没有意识到大数据对某些部门的革新究竟有多彻底。总的来说,我喜欢这样想,万事万物都是相互关联的,没有0.000关联这一说。所以你做的每一件事情都预示着你做的其他事情。从传统角度来看,企业做这些预测时通常只有三个或者四五个变数。但如今,他们基本上掌握了每个人的所有信息,然后用这些信息来预测。所以这是一个非常强大的工具。
时间:2018-08-09 00:47 来源: 转发量:次
声明:本站部分作品是由网友自主投稿和发布、编辑整理上传,对此类作品本站仅提供交流平台,转载的目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,不为其版权负责。如果您发现网站上有侵犯您的知识产权的作品,请与我们取得联系,我们会及时修改或删除。
相关文章:
相关推荐:
网友评论: