fbpx

川普,拜登谁将胜出?以大数据分析预测选举结果- 2020美国大选答问

川普,拜登谁将胜出?以大数据分析预测选举结果- 2020美国大选答问

编者按:美国大选投票前三天,朋友米镜用数据分析了选举结果,无论结果如何,留下一个历史记录。米镜先生是资深大数据科学家,有幸请到他来谈谈大数据与即将揭晓的美国大选的情况。

 

问:镜先生,您好,感谢您百忙之中,抽出时间就中美选举有关问题,与我交流答问。

米镜答:全世界,包括中国,都在关心这场世纪选举,它的结果影响的 不仅仅是美国的前途走向,也会对中国和世界产生巨大的影响。还有三天就是选举日了,有机会谈谈一路走来利用大数据追踪选情的心得体会,对于总结和验证其得失,很有意义。

 

问:先生作为一个大数据科学家,社交媒体舆情分析设计者和架构师,对目前两个候选人选情一定有自己的独到见解。我最想问的问题就是,川普和拜登到底谁会赢,赢面多大?有什么数据支持?

米镜答:哈,谁都想知道答案,谁都不是算命先生。一定要给个赢面概率的话,迄今收集到的数据综合看来,拜登赢面大,应该有八成吧,川普不是没有可能,但几率较小。为什么,我们可以细细谈。

四年前,社交媒体大数据的自动舆情分析在大选前预警了希拉里选情告急,川普赢面急剧上升。当时主流媒体一面倒高歌猛进,没有相信川普有赢的可能。这两次的数据分析有何异同,是个很值得探讨的课题。

简单回顾一下当年的情况。2016年希拉里实际上是赢了300多万张普选票,但在遥摆州输了7.7万张普选票。根据赢者通吃法则,希拉里虽然赢了全国的人气,但结果是选举人票大输,川普创造了胜选者输普选票的历史最高记录。有分析认为,如果参与投票的人数略高于大约1.37亿人,希拉里就会赢,可是当年的投票热情和投票率都很不理想。如今,专家们认为,投票率可能会达到1.6亿张左右,甚至更高,这大致相当于2018年中期选举创纪录的投票率,当时民主党以近1000万张的优势赢得众议院的普选票。四年前,在大选的最后三周,一切有可能让川普突围的事情,都发生了。联邦调查局局长詹姆斯·科米给国会的信,引人注目地在大选前11天重启了对希拉里电子邮件的调查,这对温和派和独立选民产生了显著影响。最终的结果是什么?在最后阶段,正如当时的大数据舆情调查表现的,川普反转了选情,最后两周领先希拉里不少。

 

问:嗯,这次你这个分析与主流分析好像也差不多。

米镜答:我们不必刻意与主流不同。一切要看数据,以及数据分析是不是有道理。

先给你看两张图的对比,都是过去半年大数据的舆情趋势图。第一张是推特数据;第二张是除推特以外的所有公开平台和社交媒体的相对应的数据。

我们看到了什么?半年舆情的前五个月,拜登一直领先,两套数据大同小异,趋势一致。但是近一个月来,推特数据显示出川普舆情的上升和拜登的下降。非推特数据却反映出拜登依然保持其领先地位。排除了20个坚定大州以后的非推特数据的舆情也做了调查,从6个月、3个月、一周、1个月到过去20小时,仍然全部是拜登领先。这与摇摆州的推特数据趋势形成反差。

排除推特以后的舆情曲线表明,是推特这个信源把拜登近一个月的颓势放大了。前五个月选情还没到激烈冲刺的阶段,网络的选情话题的活跃程度也远远不如近一个月,所以二者的差距不显。同样是社会媒体的公开源,为什么选战激烈了,就会出现这么大的数据差距?

今年的大数据自动分析调查让我颇感困惑。困惑的原因是我们做大数据分析,一开始是不分推特和非推特的,因为都是社交媒体公开平台,每个人都可以自由发言,理所当然认为它的总体是舆情的恰当反映。数据混杂在一起的时候,我们看到的趋向曲线,基本上就是第一张图的样子,所以感觉几年几乎就是2016翻版,历史再现,拜登选情告急,川普有很大的胜算。数据摆在那里呢,大数据不会说谎。因此在大数据分开为两套分别分析之前,我只能说,尽管传统民调和主流媒体一直在说拜登要赢,我们还是要宣告拜登选情告急,极有可能步希拉里后尘遭遇大选滑铁卢。

本来觉得也只能这样了,数据分析员只能让数据说话,解读不能偏离数据事实。知道昨天想到分开考察试试,这才发现舆情被推特主宰了,推特被大V主宰了,而大V中川普是压倒性的。他疯狂发推,泼脏水抹黑对手。他每次发飙,接着就是无数的转发和评论,总能掀起推特的巨浪。几乎每一个反拜登的舆情 top 5 的热词,追根溯源,多半来自川普本人,我们drill down多次查对证明了这一点。

必须承认 川普一个月来的造势非常给力,简直就是个造势魔王。他自己都说 我现在感觉太好了,我知道我肯定赢,一个月前我可不敢这么说。就是说他知道自己一直落后,只是进入造势状态后,看到他激发的基本盘的狂热,给了他信心。自从川普拼老命造势以来,有些传统民调也反映了川普有逐渐赶上来的某些势头。

民主党的拉票工作,今年也是异乎寻常的高。我本人因为认同全民健保的理念,登记了民主党。登记要求留下电话。近一两个月以来,我每天平均收到四五个民主党大老的短信留言,持续两个多月了。所有的民主党大佬,拜登、贺锦丽、奥巴马、希拉里、沃伦(团队)都以老板的名义来留言拉票。民主党也在玩命,而2016 那次相比之下差太远了

 

 

问: 为什么两套数据会有如此不同的趋势呢?今年与2016年到底有什么不同?

米镜答:我们推测,推特由于数据量的压倒优势, 加上更新及时源源不断,实际上是掩盖了其他众多媒体的声音。这就是为什么推特数据的分析与全体数据分析的结果趋同的原因。看一下数据来源的分布图就清楚了。在这个可能是世界上最大的社媒舆情大数据自动分析平台上,虽然推特数据随机选样仅百分之十,其绝对数量也远远大过其他成千上万的社交媒体和论坛的公开数据的总和,约占总量的95%。

因此,如果推特由于其平台的特性而产生系统性偏差,譬如由于川普作为推特超级大V(川普推特账号的追随者高达八千多万),像黑洞一样很大程度上左右了推特的大选话题中的说法;或者民主党大V 如拜登和那个美女民主党议员AOC(Alexandria Ocasio-Cortez)主宰了其余的话题。那么其他人的声音就被稀释了。整个舆情就是围绕大V们转,其中川普推特治国的影响力最为巨大,完全是压倒性的。此前我们在做近期细线条社媒大数据的分析时,就多次发现,压倒性的正面或负面的舆情数据点中一多半,追根溯源几乎全部来自川普本人,然后被他的粉丝不断转发和发挥。例如,这几天批评拜登的一个热词是compromised(受到外力影响或支配的意思),数据溯源,原来是出自川普推文,说拜登会受到中国影响,毁掉这个国家。这与当年有人攻击川普有把柄在普金手中,会受到俄国影响一样,都是为抹黑对手,但产生了广泛的影响:24小时就占据了拜登数据的 6%.。

两套数据的不一致间接支持了分开分析研究的必要性。排除推特看趋势,提供了另一个非常重要的舆情分析的角度。换句话说,现在的大数据分析已经变成了下面的两种考量:到底是相信推特代表了选民民意更多,因此转化为投票结果更准确,还是其他的社会媒体反映的舆情更加真实?推特跟微博类似,那是一个与粉丝的乐园。脸书倒是与微信类似,那是草根和朋友圈的天下,更多反映自下而上的民间舆情,但脸书数据量虽然大,但大多属于隐私数据,无法reach。退而求其次,我们就把包括脸书公开数据在内的成千上万的公开平台和论坛合在一起来调查。其调查的结论与多数主流民调相当一致,这个结果让我们有点惊讶:拜登在很短的间歇,有与川普接近的瞬间,但是总体上,拜登从来没有落后过。据老友说,其实民调接受了2016年的教训,也已经比以前更加“严谨客观”了,虽然还是有数据点采集不足的根本缺陷,但是克服了上次的一些重大失误。上次是完全随机采样,这次是根据上次投票的群体分层随机采样,而且有的问题不是问你投谁,而是问你会不会去投。

 

问:民调和大数据挖掘分析都不简单啊,是不是应该综合起来考量?

米镜答:对。在信息过载的人类现代社会,预测大选这样的全民参与的重大事件,本质上都是盲人摸象。分析师,无论是传统手工的调查还是借助大数据自然语言的自动分析平台,都是在提供数据分析的不同视角。

现在清楚的是社交媒体舆情大数据分析有两点价值: 一点是大数据对于舆情的反映更加及时,很多时候,但大数据指出舆情变化后,传统民调还在过去的数据中毫无知觉,但过了一个滞后期,传统民调有时候晚一步也跟上了。这事儿发生了n次,值得研究。第二点是大数据的对比分析和趋势分析,有前所未有的客观性。各种民调无法做对比分析,因为都不是 apples to apples,但是大数据平台一视同仁,在平台内所做的各种对比和趋势,极大提升了可比性。例如过去半年的推特曲线趋势前5个月拜登高歌猛进,大数据曲线反映出来的东西,与以前的各种民调的主流是吻合的。但是最近一个月来的选情变化,是以前五个月的选情的完全对等的延伸,数据源不变,算法不变,可比性决定了其相对趋势必须有个合理的解释。反转起始点是老川得病、出院。反转的高峰,一个是拜登儿子电脑门,第二就是大选最后辩论。在这些节点上,推特上拜登的舆情下降,震荡很大。下面是近一个月来的舆情纠缠:


总结一下。现在是两套数据,在讲两个故事,故事不同是角度和来源的缘由,都是可以解解的了,不再是一片混杂,茫无头绪。一方面,推特的影响力不能说不大,也不能小看其实际意义,否则所有的总统造势,都没有意义了。推特上的大V与粉丝的狂欢和嘶喊,实际上就是造势的网络版:每一场竞选造势同样是领袖指点江山,粉丝山呼海啸。如果相信奔波造势可以提升影响力,进而促进更多的选票(到底促进多少,其实大家也还是盲人摸象地在瞎闯),那就不能忽视或否定推特的舆情了。但是另一方面,推特的高音量也的确遮蔽了很多其他的声音,这些声音的整体毫无疑问也反映了民间实际舆情,可能反映得更为广泛和草根化,因为它不再是受大V主宰的情绪。这种声音和情绪所能转化为选票的潜力,自然更不能忽视或遮蔽。结果就是两套数据、两种分析之间如何平衡的问题了。加上其他非数据调查的因素考量(后面我们可以提一些供读者参考),最后 每个 well informed 的人,应该可以得出自己的 educated guess,我的guess前面已经说了,是拜登的赢面不低于八成。

 

问:今年选举预测有什么难点?

米镜答:今年的结果最难预测,因为出现了很多以前选举没有见过的状况,很多moving parts,所以合理的趋势分析或预测需要综合考量。说几点今年的选情特点,一是投票率在创新高。今年的总统大选空前激烈,美国选民在今年的投票热情,也远远超出了往常。截至10月28日12时,全美提前投票人数超过7000万人,是2016年大选同期投票的两倍还多。全美提前投票的选民人数已经达到了创纪录的水平。第二条是由于新冠影响,不得不大面积使用邮件投票和提前投票,这对高投票率有很强的推动作用,因为很多人不必排长队,也不必在时间紧张的投票现场匆忙投票,一切可以坐在家里从容进行,这使得往年对投票有畏惧或懒惰心理的人,开始投票了,选一位自己认为不是最糟糕的候选人。三是候选人川普本人的独特性,根本上说,这次大选不是拜登与川普对决,而是拥川与反川的对决。

事件上看,拜登儿子的丑闻在选前十来天被爆料和发酵,也很大程度上左右了推特的舆情反转。这些状况给舆情大数据分析梳理增添了难度。

 

友人问:社交舆情大数据分析有什么益处?

米镜答:这是一场空前规模的经典博弈案例,值得后代和历史不断分析。大数据分析洞察,要获得marketing insights,需要仔细思考这中间的各种影响因素目前看来。数据本身及语言技术的使用,只是帮助我们多提供了一个以前无法达到的高视角,一个传统方式难以企及的高度。从量上看,社媒大数据的数据点大约是传统民调的三个数量级(!),并且可以提供不受限的任意时间段,对任意对象或对象组的任意角度切割的分析视角和可视化展示。利用大数据做舆情调查,弥补手工调查的缺陷和不足,是信息时代的必由之路。所有的这些调查分析实践都为我们今后更好地利用大数据工具提供了有益的经验和教训积累。

 

问:今年投票人多到什么程度?

米镜答:热情空前高涨,美国人排队11小时就是要投票。

美国《时代》周刊近百年来首次“改名”,将“时代”二字改为“投票”——封面图片是一名脸部围着围巾的女性,上面画着一个投票箱,写着“投票”二字。


《时代》主编爱德华·费尔森塔尔称,“2020年充满了痛苦、艰辛、混乱和损失。然而,随着世界各国在新冠疫情之后开始重建,美国人也有独特的机会改变态度。” 与四年前相比,各年龄段的选民投票率都在上升,年轻选民的表现更是亮眼。这对拜登是利好,因为很多调查(包括我们大数据的分类调查)说明,年轻人、大学生、妇女与非裔是反川比例最高的几个群体。他们对川普和共和党漠视社会福利(如全民健保)、减税利益向富人倾斜,还有移民、环保等政策,充满了愤怒或不满。

今年的投票率,从各种来源看,都是最高。两边的选民都被激发了,但是川普的基本盘从来都是积极参与投票的,以前民主党的短板是其群众投票率不高。投票率高,拜登利好。

有分析称,百年不遇的疫情和美国现代史上最极化的政治环境,促使年轻一代迫切想要投身政治。截至10月26日,得克萨斯州提前投票的年轻人数量已接近2016年总数的三分之二。根据数据公司TargetSmart统计,与2016年相比,年龄在18至29岁之间的选民比例在北卡罗来纳州增长了13%,在亚利桑那州增长了19%,在明尼苏达州增长了36%。2020年是美国年轻人提前投票创纪录的一年。根据数据公司Catalist统计,在得克萨斯州、佛罗里达州和北卡罗来纳州等14个选举关键摇摆州,18至29岁年龄段的提前投票人数都有所增加,其中佛罗里达州年轻人投票比例是2016年的两倍。爱荷华州华人协会执行主席燕晓哲告诉《凤凰周刊》,大学生由于还没进入社会,更多的是从理想主义角度出发,因而更贴合民主党的主张,而已经参加工作的人会考虑纳税和公司运营等现实问题。非裔选民今年在全国多个地区的投票率都优于上次大选。以佐治亚州为例,截至10月26日,有超过60万名非裔选民投票,远超四年前同期的28万人;加州也有超过30万非裔选民投票,四年前同期只有10万余人。路透社10月初针对黑人选民的民调显示,拜登得到黑人选民群体72%的支持率,而特朗普只有9%。有分析认为,只要非裔选民的投票率能得到提升,对拜登是重大利好。这些不同的数据来源,都是大选趋势分析不可忽视的因素。

由于支持民主党的选民主要采取邮寄投票方式进行了提前投票,目前民主党获得的选票接近共和党的两倍。但这并不能作为预判结果的唯一依据,因为共和党选民更多的会在大选当天进行现场投票,悬念依然会保留到最后。对于特朗普和拜登两位总统候选人来说,即便到了最后一刻,动员投票仍是重任。在选情拉锯的一些摇摆州中,不排除压死骆驼的很可能就是最后的区区几万选民。

投Biden的今年很多都是不会为Biden宣传的, 他们不喜欢Biden只是恨trump,这次Biden的投票人很多是实在受不了trump的。trump支持者这次比2016年疯狂,所以今年完全按照舆情数据预测大选结果是成问题的,需要与今年的这一系列特别的情况综合考量才比较靠谱。

 

问:川普的选战表现如何?川普现象在历史上会留下一笔吗?

米镜答:应该说,他是选战的天才,他的直觉对于稳固和激发基本盘有奇效。到了造势现场,他就好比换了一个人,完全是天马行空。他的气场,强过摇滚巨星。

如果川普败了,新冠和投票率上升(包括邮寄选票和很多州的提前投票)是主因。这两个异于往年的因素对他不利。换句话说,如果岁月静好风平浪静,川普赢得连任是大概率事件。他的能量、个人魅力以及他所代表的被遗忘的铁锈区基本盘,不可小觑。

他的 base 的确很厉害。他也确实换起了铁锈区被遗忘的角落和民众 让全球化现代化浪潮中被牺牲掉的边缘化人民,不至于自生自灭不留声息。这是对建制派官僚和精英社会的一次空前的挑战和警醒。我认为这是川普现象的正面意义和历史价值。劳心者治人的精英社会开始反思,改革改良的进步主义呼声越来越高。

 

问:川粉也是今年大选的一大看点。

米镜答:川粉一直就很热情,今年为甚。打了鸡血似的,看看造势现场就知道。川普说什么已经不重要,相互矛盾 胡说八道也无所谓,只要川普在上面做个手势,发个声音下面就是山呼海啸。

在谈到特朗普狂发推特时,第一夫人辩护说,对他而言,直接与人交谈很重要。她说,唐纳德是一名战士,他热爱这个国家,每天为你们而战。而这个国家的公民每天都可以通过社交媒体直接,即时地听到他们的总统说话,这在历史上还是第一次。

川普是造势的高手,他的基本盘很容易被激发,热情有余。但今年有一点很特别,实际上反川(而不是粉拜登)的基层民众,也跟川粉一样被前所未有地被激发。人家喜欢不喜欢拜登是一回事,讨厌川普是另一回事。这些川黑以前对政治是冷淡的,经常懒得投票。因为选票对他们是在两个都不喜欢的人里面选一个。但今年有所不同,街头持续不断的示威,包括“黑人命也是命”的运动,最大限度地激发了投票反川的热情。投票站的长龙,以及如此之多的早期邮寄投票,相比以前,其热情程度的确是从来没有过的。

问:关于拜登儿子的电脑门事件您怎么看?它对选情有多大影响?

米镜答:川普阵营算计好了日期,提前十天左右爆拜登家族丑闻。这是有经验教训为参照的。2016年川普的性录音的劲爆丑闻爆料的时间点略早了一周多,结果很快被大选前爆出的FBI重启希拉里的电邮门事件冲掉了,结果证明电邮门调查事件对于希拉里的伤害,远大于录音丑闻对于川普的伤害。但是今年因为疫情提前投票,料还没有爆完,票已经投完一半了,这是难以预测的今年的特殊情况。

卷入选举政治博弈的头面人物,从川普开始,包括朱力安尼,也包括布隆伯格等等,都是操纵舆论和挑动民众情绪的大师,他们知道如何去泼污水,搅乱视听。无论时间点选择还是操作手段。刚看了一下,拜登家族的丑闻炒作跟华信叶简明有关,不过这个人2018年就被抓了,据说是个骗子。这事儿的炮制过程苹果日报有卷入,有很多是非争议的某富商和川普前军师官司缠身的班农是背后推手,川普的私人秘书策划爆料的时间点。爆料的事情已经压了半年多了,就是要在大选当口泼脏水。现在看来,这个爆料至少从媒体coverage看,对拜登伤害最深。“拜登家族腐败(Biden family corrupt)”因此成了近一个月的推特负面舆情的主题词。下面的一个月来的舆情动因词云是在一亿多相关推特留言中挖掘出来的,光“腐败”一词就出现 124万次。这是拜登在推特半年来领先突遭舆情滑铁卢的最重要的导因,尽管其实际效果如何,还有待选后结果做进一步关联和验证。

问:还有哪些重要的影响选情的状况值得注意?

米镜答:有一件事讨论得不够充分,但却是很重要的因素,就是第二阶段救助计划的迟迟不能落实。选民因此对两党都有怨气,需要分析的是怨气的比例和对摇摆州选民的投票影响。这是最打击普通底层家庭的切肤之痛。虽然两党都向选民表白知道人民疾苦,但自从第一阶段救助到期,迄今已经几个月了。与很多国人想象的不同,美国有相当多月光族家庭,大多没有积蓄,寅吃卯粮,信用卡常常刷爆,完全经不起失业的打击。他们面临无法应对生活基本开销的恐慌。目前看来,这批人的怨气貌似分散了,既有把怒火撒向川普,也有把怨气撒向民主党(佩洛西)的。如果选举日之前救助计划出来了,算谁的功劳?这个还真不好计算。相信两党都有高参在做研究,报告各自大佬,这一个妥协是不是有利,否则何至于拖延至今。川普出院以后高调放风说,TMD 不跟民主党扯皮了,救助计划选举后再谈。激起众怒的反馈回来,他马上改口说,你们不知道交易的艺术吗为了达成交易,先把话说死,然后出一个对方难以拒绝的 deal把球踢给对方。这一招的确给民主党造成了不小的牵累,对选情肯定有负面影响,虽然媒体上没有充分发酵。

 

免责声明】内容和图片由作者授权硅谷创新频道-丁丁电视发布,版权属于原作者。本平台不对文章内容真实性承担任何法律责任。感谢支持!

评论

电子邮件地址不会被公开。 必填项已用*标注