在假新闻和机器人时代使用 NLP 揭示真相
现代政治格局充满分歧。这并不是什么新鲜事,一直以来都有许多因素促成了政治话语的切入点。但今天,政治情绪受到更动态、更直接的力量的影响,这些力量可以用作信息战的工具。传统的传播方式,如印刷媒体、政治运动和广告,当然仍然很突出,但现代信息格局包含网络的附加变量,更重要的是,社交媒体。
我们现在所处的时代可以通过分析大量数据来揭示对任何主题的情绪,这些数据从民意调查、选举结果和专家分析等传统数据到社交媒体等替代数据集平台。然而,为了确保我们能够真实地了解任何情绪,我们必须确信我们分析的信息是可信的,而这些信息正变得越来越难以识别。作为一名在使用自然语言处理 (NLP)构建情感模型方面拥有丰富经验的数据科学家,我想分享我在当今日益具有挑战性的信息环境中发现真相的经验。
寻求验证
在创建情绪分析模型时,不能低估替代数据源的价值。社交媒体平台提供了大量可以实时分析和分类的信息,而民意调查和新闻来源等传统方式则提供及时的快照。
在任何情绪分析项目开始时,必须决定为模型提供数据源以及创建指标的方法,即确保其输出是经过验证的现实。与任何数据科学项目一样,这需要长时间的发现、数据整理和验证。同样重要的是确保所有数据在执行分析之前都是匿名的,完全符合数据保护和隐私法规。
所有项目都始于一个想法。将想法转化为可行解决方案的关键是与主题专家进行协作和验证。针对特定市场(例如房地产)的指标需要这些行业的专业知识,以确保它们背后的方法是合理的。模型运行后,可以查询变化并根据反馈进行调整,从而提高模型的性能。
对于侧重于不同国家/地区的情感分析,必须充分理解目标人群的语言。如果我们要决定哪些社交媒体帖子表达了消极或积极的情绪,我们必须确保俚语和方言也被考虑在内,这可以在地方、区域和国家层面进行。对于这些用例,语言学家、母语专家和数据科学家必不可少。
最终,我们在分析社交媒体帖子时的工作是确定与某个主题的可信互动,例如政治职位的选举。对于社交媒体平台,例如 Twitter、Telegram 和微信,可靠的来源不一定是专家,它只需要是参与讨论主题的真人——但在机器人时代,这就是事情变得困难的地方。
发现假货
越来越多致力于传播错误信息和虚假信息的机器人和假新闻账户被用来影响我们对现实的看法。这就是可以筛选噪音并提供真实见解的情绪指标变得非常宝贵的地方。
NLP用于政治指标和金融指标。对于两者而言,避免机器人和假新闻账户至关重要。然而,当涉及到选举结果等政治用例时,参与话题的真实用户和虚假用户要多得多,这意味着需要分析的数据也更多。在我创建情绪分析指标的工作中,我发现许多账户都是机器人,必须从为模型提供数据的数据管道中删除。
通过利用主题专家和语言学家的输入的 NLP,可以检测机器人并从正在分析的话语中打折扣,即从指标中删除。Twitter 当然是最受欢迎的平台,因此我将以此作为我的示例用例。
确定哪些账户是机器人涉及多个阶段。首先,Twitter 提供有关帐户的元数据,这提供了初始分析层。在进一步的验证工作之后,下一层是模型必须将情绪归因于推文的地方。这需要创建一个术语文档矩阵,其中可以通过文本分析确定负面、正面和中性情绪。最先进的 NLP 方法分析,例如来自 Transformer 的双向编码器表示 (BERT),可用于检测文本中的上下文、句法和语义,从而在确定与主题相关的情绪时进一步提高准确性。同样,这也是早期与主题专家的合作发挥作用的地方,在这些专家身上,术语被赋予了它们的价值。
对于经济指标,推文中的“增产”一词在讨论主要原油出口国时是积极的,但在与原油价格相关时则是消极的。这就是为什么还必须考虑同一推文中的其他术语,以及术语之间的关系和使用它们的上下文。通过分析推文中的所有情绪,该模型将提供一个正面或负面的分数——中性结果从最终输出中扣除。
没有黑匣子
在开发指标时,用于构建模型的基础技术、数据和方法必须完全可解释。能够解释流程的每个阶段,从数据整理和验证到处理和微调,让用户相信模型没有丢失关键数据,构建时没有偏见,并以合乎逻辑和公平的方式归因于情绪.
最终,最终结果是一个指标,但与所有机器学习模型一样,输出仅占创建模型工作的 2% 左右。展示工作原理不仅是最佳实践,而且对于确保持续改进和加速开发更具吸引力的解决方案也至关重要。
时间:2022-12-10 17:08 来源:未知 转发量:次
声明:本站部分作品是由网友自主投稿和发布、编辑整理上传,对此类作品本站仅提供交流平台,转载的目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,不为其版权负责。如果您发现网站上有侵犯您的知识产权的作品,请与我们取得联系,我们会及时修改或删除。
相关文章:
相关推荐:
网友评论:
最新文章
热门文章