编者按:网络与新媒体的发展,用户参与网络形式和内容呈现多元化,也导致了多样化数据的产生,非结构化舆情数据及相互关系的处理已成为必然,这与传统结构化或同构舆情数据处理相比,在方法和技术方面都存在巨大挑战和困难。湖南师范大学新闻与传播学院段峰峰和陈淼在《传媒观察》2020年第1期发表论文,针对不断增多的热点事件网络舆情异构及非结构化数据,通过引入人工智能理论和技术,提出了跨媒体网络舆情数据智能分析与处理六个研究方向和技术实践思路,从而全面、精准地应对舆情。
随着网络与新媒体的发展,网络舆情传播对政治舆论与秩序、社会生活等诸多领域的影响不断增强。舆情信息也不再只是文本、数字等结构化数据,图像、音频、视频等非结构化数据逐渐增多,当某一舆情事件产生时,与该事件相关的多种类型媒体数据可能在网络中迅速传播。媒体数据多元化的趋势下,考察非结构化的舆情信息,研究异构舆情数据获取、分析与处理,成为舆情预警和有效应对的关键。
目前常用的舆情监测系统主要是针对结构化和半结构化数据,采集的一般都是网页文本数据,不能实现不同媒体形式间的关联搜索。根据话题活跃程度或话题数量能够发现和识别热点话题,但无法实现跨媒体话题识别与追踪,难以实现非结构化舆情热度的预测。
随着新一代人工智能的勃兴,一些学者分析了人工智能技术在网络舆情监测和应对中的应用及价值,提出了人工智能应用于网络舆情数据分析各环节的范式,并且大多都强调了语义分析的重要性。而在实践应用领域,人工智能对网络舆情研究的最重要影响在于,将推动跨媒体网络舆情数据的智能分析与处理。
传播机理探索
网络舆情传播及演化,一方面是所处环境文化价值观的体现,受意见领袖和议程设置的影响,表现为沉默的螺旋和群体极化下的认同或否定,参与者为了表达这种认同或否定,会以多元化的有力证据证明自己的认知价值观;另一方面是参与者个人心理倾向的体现,受秩序、公民权和力量欲望的影响,表现为开放互联网环境下的表达欲和分享欲。参与者为了实现由于表达和分享而带来的自我满足感、公民权诉求和对他人的影响,会采用更加丰富多彩的方式来进行观点和内容呈现,以吸引他人关注。
大量参与者以多元化的证据以及丰富多彩的观点和内容等多种不同方式的参与,导致了舆情的快速传播与扩散,跨媒体网络舆情大数据随之不断生成。跨媒体舆情数据在形式上的最大特征即异构性,针对异构舆情数据结构和特点,可以利用智能推理及贝叶斯网络方法和技术进行异构内容语义特征分析,来探寻不同媒体数据类型相关关系的本质以及舆情热点演化关系;并通过挖掘不同媒体类型舆情数据传播特点、相互作用机制、传播过程、传播路径及互动关系等,来实现跨媒体网络舆情传播机理解析。
智能检索技术
不同于同构媒体间的匹配检索,跨媒体网络舆情大数据的检索,关键在于依据同一舆情事件的语义实现异构媒体数据间的互动检索,这就可以利用人工智能相关技术进行跨媒体数据间关系的建立以及特征分析和匹配。(1)跨模态(Cross-Modality)特征提取及融合。采用人工智能深度学习的理论和方法对异构跨模态特征进行提取,即基于卷积神经网络的深度学习算法,采用多层学习方式实现特征检测及提取,根据特征贡献量,对异构特征进行均衡处理,实现特征融合,获取高维多阶特征。(2)海量网络数据关联模型构建。通过典型相关性分析(CCA)建立容纳不同媒体特征的同构子空间(即相关性子空间),采用最大系数的思想,通过不断的关联学习,获取最大系数,来进行异构媒体关联模型的构建,并在此基础上基于本体语义及机器学习概念关系建立,挖掘异构媒体不同概念层次的相关性,以此实现跨媒体关联关系的建立。(3)异构高维稀疏性特征结构化。根据Mitchison提出的神经稀疏编码理论,采用结构学习方式对异构高维稀疏特征进行结构化处理。在处理中,通过建立回归模型,利用先验知识,来实现算子优化,从而实现选择算子构造。(4)基于增量学习的相关反馈。采用基于增量学习的相关反馈,结合用户感知的先验知识,修正查询向量和整个数据集的拓扑关系。且反馈作用于跨媒体特征映射的子空间,而非初始的视觉和听觉特征空间,从而提高查询效率。
智能识别追踪
海量网络信息中,较为及时、准确地发现其中的显性和隐性热点及敏感话题,并对其传播路径及演化趋势进行追踪,能够对舆情发展进行预测和有效应对。热点及敏感话题的发现和识别主要依据于话题来源、用户参与数量和频度等;而追踪则是要实现参与者新增话题与原始话题的相似度分析。Web中热点及敏感话题的识别与追踪一般通过文本聚类来实现,一种是在聚类中以关键词作为文本特征,通过运用不同的聚类算法,能实现话题下的文本聚合,但文本难以较为准确地形成话题;另一种是将文本聚类映射为话题特征聚类,然后依据事件将文本信息组织并重构成话题。从跨媒体网络舆情的形成和传播机理来看,用户参与形式和观点的表达,以及所形成的新话题信息内容都呈现多样化特征。简单的文本或同构媒体聚类及相似分析难以准确地实现跨媒体网络舆情热点及敏感话题的识别与追踪。
人工神经网络智能理论和技术能够支持基于深度学习的热点及敏感话题识别,即利用基于深度学习的无监督多模态特征自动聚类方法和技术,根据跨媒体异构数据相关关系的学习,对跨媒体特征进行分类聚合,由聚类中的异构多特征指向话题,通过检测和分析自动发现和识别热点及敏感话题。在基于深度学习的话题智能追踪中,通过建立节点关联存储模型,分析和记录话题传播路径,对话题演变根据特征智能匹配技术,进行实时追踪,追溯并发现话题源头和演化脉络,跟踪舆情热点传播过程。
热度智能预测
相对于文本描述来说,视音频、图像等非结构化的视听内容包含有更丰富、更直观、更真实的信息,更容易引起受众的关注。对于很多舆情事件,都是因视音频、图像等视听材料的信息而引起了更多人的关注,从而快速引燃了网络舆情的爆发或加速了网络舆情的蔓延。例如2018年8月27日发生的“昆山反杀案”,第二天现场视频曝出后,持刀人刘某某被“反杀”的戏剧性情节引发大量网民关注,视频被网民大量点击,转发和评论量急剧上升,由此引发和加速了网络舆情迅速升温及蔓延,8月30日即达到第一次高峰。在未出现事件具体背景信息的情况下,正是由于视频内容的潜在热度,助推了网络舆情的热度而使其广受关注,并快速和大范围传播。
基于内容的热度预测是针对非结构化的视听内容,根据内容元素及特点预测其在网络传播中受关注的程度。基于内容的网络舆情热度智能预测能够对网络中出现的视音频、图像等舆情信息关注度的高低进行自动预测,从而预判舆情爆发的可能性及热度,为有效阻止舆情爆发和舆情危机应对提供支持。基于内容的热度智能预测关键在于场景理解可计算模型和方法,即基于大数据分析、数据关联模型,进行内容关联,并利用跨模态特征及关联关系,形成可计算模型和方法的构建,实现对现实世界场景的理解,进而建立起“物-信息-人”的关系,以及语义理解和传递。同时,根据舆情数据内容的理解,基于深度学习的大数据挖掘,参考计算机视觉图像识别库ImageNet数据集对图像、视频内容对象进行识别及热度分析,并根据跨媒体特征和相关分析进行舆情热度的预测,从而自动挖掘潜在热点舆情并支持舆情危机智能预判。
情感智能分析
舆情大数据情感分析是对舆情事件表现出的态度倾向性判断,如正面、中性、负面等,或更为具体的快乐、悲伤、喜欢、讨厌、渴望、焦虑、冷漠等态度类型。在网络舆情分析与实践中,常见舆情监测系统大都是利用分词和语义分析方法,对带有情感色彩的词语进行分类,根据出现的频度,来计算各类型态度的概率,从而获取参与者对舆情事件情感的判断。但这些方法受语句复杂度、否定词以及标点符号的影响和制约,导致准确度不高,而对于跨媒体异构数据的情感分析更是显得无能为力。人工神经网络智能方法的引入,跨媒体特征学习为跨媒体网络舆情大数据情感智能分析提供了支持。
跨媒体网络舆情大数据情感智能分析,一方面是基于深度学习的文本、图像、音频、视频情感计算,即利用深度学习模型,分别针对文本、图像、音频、视频进行文本关键词、图像对象、语音情感特征、视频分割和对象识别进行分析,然后基于非线性处理的深度学习进行情感判断。另一方面是,跨媒体情感智能计算。事件的描述信息通常具有多种媒体类型组成,根据跨模态数据关联关系,基于深度学习构建最优情感计算模型,以及从底层视听内容到认知层实体再到高层情感类型和强度的映射学习模型,进行跨媒体情感智能计算,实现舆情信息的情感分类和理解。
长数据智能存储
在复杂的网络环境下,以单个事件为基础,以常用网络舆情演化模型为依据,对舆情发展趋势进行预测,并对各个阶段进行应对,其针对性、准确性和有效性明显不足。2013年,美国学者Samuel Arbeseman首次提出“长数据概念”,即具有历史纵深性的大规模数据汇聚。长数据概念的引入,把社会现象放在一个更长、更深远的历史语境中去观察,了解现象与现象之间的关联,深入挖掘事件发展变化的内在规律。在研究某个舆情事件时,将其同历史舆情事件数据关联起来,建立历史性的数据库,能够研究舆情事件背景、发展趋势、演变规律。大数据的动态变化赋予了其“瞬时性”的特征,非结构化音频、图片、视频变化更是频繁,而长数据提供了观察世界的另一种纵深视角,能够更方便地聚焦于这些“变量”中的“常量”,从而总结出事物变化的规律,结合长数据思想可以更好地实现舆情分析、预警与应对。
跨媒体舆情长数据分析关键在于数据及相关关系的智能存储。通过建立舆情长数据案例库,为舆情分析和应对提供“典型样板”;通过对同类事件的学习,参考过往传播路径和应对策略,智能、精准预测舆情发展趋势,能够有效提供舆情危机预警与应对预案。跨媒体网络舆情长数据智能存储,一方面是对跨媒体舆情数据进行智能编目,即以舆情事件为基础,形成数据编目方案,实现编目数据特征智能获取、组织和描述;另一方面主要是对异构数据和关联关系进行存储,为克服舆情大数据的动态变化问题,可采用基于增量学习的非重复存储方式,实时存储舆情数据增量,基于内容匹配消除重复数据。
(载《传媒观察》2020年01月号,原文约8000字,标题为:多元与智能:跨媒体网络舆情数据的分析与处理。此为节选,图表和注释等从略,学术引用请参考原文。)
【作者简介】段峰峰,湖南师范大学新闻与传播学院副教授,湖南省社会舆情监测与网络舆情研究中心研究员,硕士生导师,博士
陈淼,湖南师范大学新闻与传播学院讲师,硕士
【基金项目】本文为2018年度国家社科基金项目“跨媒体网络舆情大数据智能获取、分析与处理技术及应用研究”(18BXW109)研究成果之一。