《传媒观察》｜多模态计算传播研究的进展与前瞻

编者按：随着计算方法的快速发展，超越文本的视觉计算传播研究开始兴起，但是仍主要体现为单一模态研究（只是从文本转向视觉）。周葆华教授和博士研究生吴雨晴在《传媒观察》2024年第1期刊文，强调在媒体内容消费多模态化的时代背景下，应当高度重视多模态计算传播研究的发展。通过对SSCI、A&HCI等核心数据库中的31篇多模态计算传播研究的内容分析，研究梳理了现有研究概况、理论概念、研究模式与操作方法，发现：多模态计算传播研究发展较晚，亟待加强；研究模式呈现多模态关系（独立/组合）×研究目的（描述/解释）的四个分类；数据主要来自图文社交平台；基于多模态特征生成的组合变量主要包括图文一致性、图文主题、叙事策略、攻击性指数等四种。最后。研究从应用生成式人工智能、推进理论建设、促进跨平台跨地区发展等方面，对多模态计算传播研究的未来发展提出建议。

从人类传播发展史的角度看，交流的本质是多模态的，依托视觉、听觉等多感官模态的交流是亲身社交互动的基本形态。认知科学研究认为：多模态是人类接收、处理信息的自然倾向，人类大脑处理多模态信息的速度比处理单一模态信息更快。

相比多模态的具身传播，大众传播媒介，特别是印刷书籍、报纸、广播，偏向于对单一模态（如文本、音频）的再现；而数字技术作为一种“元技术”，召回了人际传播中互动与多模态的交流模式，使人类身体所具有的传播潜能不断实现。

移动互联网时代，集成文本、图片、音频、视频等多模态的媒体内容已成为人们获取、发布、交换信息的主要方式。

媒体内容消费的多模态化对传播研究的发展提出了要求。然而，基于文本的单一模态分析依然是传播研究的主流。这在很大程度上囿于方法的局限。图片和视频、音频在大规模收集、存储和分析方面比文本数据更具挑战。随着计算机视觉（computer vision，CV）等计算方法的引入，针对视觉的计算传播研究开始兴起。但是这些研究的主体还是局限于单一模态（只是从文本转向图片）。正如“语言不能与其他类型的符号分割开来”，文本、图片、视频、音频等多模态也不应被分割开来讨论。多模态之间由于媒体特性、认知取向、语义资源的不同而有所区分，同时又相互作用。因此，超越单一模态分析，在比较或关联的视域下系统地组织多模态特征、探讨多模态互动关系，不但更贴近人类交流和媒介消费的本质，还有助于推进计算传播以及传播研究整体的发展。

基于此，本文将通过对SSCI、A&HCI等核心数据库中相关文献的分析，梳理多模态计算传播研究的发展现状，并为推动该领域的发展提出建议。

研究方法

在厘清多模态相关概念的基础上，本文选取包含一种以上模态数据的计算传播研究展开分析。我们使用Web of Science平台，在WOS核心合集的SSCI和A&HCI数据库中检索，检索时间区间为2000年1月1日到2023年7月1日，目标语言为英文，主题关键词主要包括两部分——多模态内容（multimodal OR cross-modal OR visual OR audio等）和使用计算方法（"computer vision" OR "computer audition" OR computational OR "machine learning" OR "deep learning" OR "neural network" OR "generative ai"等）。

在传播学类别（WC=Communication）下检索到3990篇文献，使用类似关键词在政治学、社会学、心理学等相邻学科类别下检索到902篇文献。另外，使用相同关键词检索Nature、Science、PNAS来源并得到2103篇文献。在初始获得的6995篇文献的基础上，通过阅读标题、摘要和部分正文展开人工筛选，剔除未进行多模态分析、未使用计算方法或不涉及传播学问题的论文，最终得到N=31篇多模态计算传播论文。与此相对，使用计算机视觉或计算机听觉技术、展开单一视觉或听觉模态分析的传播学研究共有48篇。

我们运用内容分析法，对31篇文献的概况、理论概念、研究模式、操作设计等进行了人工编码、统计分析和质性归纳。

多模态计算传播研究现状分析

尽管单一视觉模态的计算传播研究早在2012年出现，多模态计算传播研究却直至2019年才出现；到2020年，研究数量快速增加至9篇；在2020―2023年上半年间，研究数量相对平稳地保持在每年8篇左右。由此可见，多模态计算传播研究仍处于起步阶段，整体上亟待加强。

多模态计算传播研究来源于23本社会科学期刊，其中19本期刊均只刊登1篇，刊载2篇及以上的是与社交媒体、广告营销、政治传播相关的4本期刊：《社交媒体与社会》（Social Media + Society）（5篇）、《国际广告期刊》（International Journal of Advertising）（3篇）、《互动营销期刊》（Journal of Interactive Marketing）（2篇）、《美国政治学评论》（American Political Science Review）（2篇）。

在31篇多模态研究中，有8篇研究（25.8%）未明确提及研究涉及的地区；有3篇研究（9.7%）针对全球范围的内容展开，但未进行跨地区对比。聚焦单一国家或地区的研究中（20篇，64.5%），针对美国的研究数量最多（9篇，29.0%），其次是中国（5篇，16.1%），另有德国（3篇，9.7%）及英国、罗马尼亚、巴西（各1篇，3.2%）。目前，涉及中国的多模态计算传播研究已是国际学术讨论中的重要组成部分，主要涉及中国嘻哈音乐的曲风和歌词、抖音平台的事实核查视频、京东和微博平台的内容特征与用户参与，以及Instagram平台上的中国城市形象。

多模态计算传播研究的主题集中在商业传播（14篇，45.2%）和政治传播（8篇，25.8%）两个领域。在商业传播的研究中，研究者往往以社交媒体图文内容或者视频广告的多种模态特征作为自变量，受众的参与度（转发、评论、点赞）或者商品的销量、项目成功与否等衡量市场反应的指标作为因变量，解释品牌与意见领袖取得商业成功的影响因素。在政治传播的研究中，研究者往往使用政治辩论或竞选广告的视频资料作为研究数据，对政客的面部表情、手势动作、言语内容、音高音调等多种模态特征进行计算提取与描述；部分研究还更进一步，结合实验方法探究了政客表现对受众即时态度的影响。

根据经典“5W”传播过程模式，可以将文献对应地分为五类：控制研究、内容分析、媒介分析、受众分析、效果分析。受到计算传播分析的数据来源、数据形式和处理方法的影响，研究以内容分析（19篇）和效果分析（18篇）为主，通过计算方法提取多模态内容的特征，结合参与度等数据分析传播效果。

本文整理了多模态计算传播研究中涉及的理论概念。其中，情感、多模态表意、说服、自我呈现、平台化等五个方面的概念被讨论得更多。

值得一提的是，这些理论概念不是割裂的，而是常常被联系在一起讨论。例如，情感效价可以和多模态表意联系在一起，探讨多模态内容的情感一致性，还可以进一步结合说服理论，分析多模态情感的一致性对说服效果的影响。再如，自我呈现理论可以和情感理论结合，分析自我呈现内容中的情感流露；也可以与说服理论结合，解释自我披露如何作为一种广告营销手段增加消费者的信任。又如，平台化理论可以与情感理论结合，解释平台的媒介逻辑如何催化情感公众的形成。

总结与发展建议

本文总结了多模态的定义，并对31篇多模态的计算传播研究展开内容分析。研究发现：首先，多模态研究自2019年才开始出现，跟随非文本的单一模态计算传播研究发展，研究数量目前偏少，且主要集中于美国等少数国家；其次，多模态计算传播研究的主题集中于商业传播和政治传播两个领域，以内容分析和效果分析为主；第三，多模态研究中缺乏新理论的建构，使用的理论/概念以情感理论、多模态表意和说服理论为主；第四，我们整理出多模态关系（独立/组合）×研究目的（描述/解释）的四个分类，其中，解释彼此独立的多个模态特征、解释组合的多模态特征的研究相对更多；第五，多模态数据主要来自图文社交分享平台（其中Instagram最多），数据模态以“图片+文本”为主，对视频（特别是不还原为图片的动态图像）和音频的关注不足；第六，相比低维特征，对图片和文本高维度的内容和语义特征的分析更多，研究生成的超越单一模态特征的多模态组合的新变量，主要包括图文一致性、图文主题、叙事策略、攻击性指数等四种。

基于此，我们对多模态计算传播的研究提出如下发展建议。

（一）超越单一模态，促进多模态计算传播研究的发展

如本文开头所述，尽管超越文本的计算传播分析在近年开始崛起，但仍以单一模态的研究为主，只是重心从传统的文本转向了视觉。在这一过程中，一方面，计算传播的视觉分析以图片模态为主，既缺乏对音频等其它模态的分析，也缺乏真正体现视觉动态特征（而非还原为静态图片）的“视频”分析；另一方面，则是超越单一模态的多模态分析的缺乏。就本文比较系统的检索而言，在SSCI和A&HCI数据库中只发现了31篇相关计算传播研究。由于多模态已经是当代媒介生态的基本特征，具有重要的理论和经验研究意义，本文呼吁高度重视和加强多模态计算传播研究的发展。

（二）借助生成式人工智能发展，促进研究方法的多样化

多模态计算传播研究仍主要局限于现有的计算机视觉（CV）、计算机听觉（CA）方法。而生成式人工智能（generative AI）和多模态大模型（large multimodal model，LMM）的发展正如火如荼，将大大拓展计算传播的研究。以下，我们简要讨论生成式AI在多模态计算传播中的可能应用。

首先，在数据来源方面，生成式AI可以生成多模态材料，基于此可以描摹基于AI的集体想象，进一步探讨算法偏见、人机关系等话题。如，有研究将GPT-3.5和GPT-4生成的故事与相同提示词下人类创作的故事进行对比，探索AI的叙述风格。在图片层面，有研究基于Midjourney生成的记者图片，分析AI认知中的记者形象。

其次，在数据处理的过程中，研究者可以通过输入上下文提示（prompt）引导大模型执行特定功能。不少研究对GPT-4V的多模态任务，特别是多模态社科研究涉及较多的任务——如多模态的情感分析、虚假信息识别、仇恨言论检测、意识形态检测等的处理性能进行了检验。研究显示，GPT-4V不仅有较强的多模态信息理解能力，使社交媒体帖子中的图文特征协同服务于各类分析任务；还能通过上下文解读特殊语义，如模因、双关等。基于其不断发展的理解力，大模型可以在研究中高效提取低维特征与内容特征，或作为编码员之一参与更高维度的语义特征的编码。

除了计算方法，部分研究在数据收集和分析中结合了传统的社会研究方法：如使用问卷、实验收集数据，结合质化方法深入分析，使用实验验证计算分析的推论等。多元方法与数据之间的配合值得提倡。

（三）推进多模态计算传播研究的理论建设

目前，多模态计算传播研究的理论化不足。在使用多模态计算分析技术服务于多样主题下的理论检验的同时，研究应该推进对多模态表意本身的理论探讨。我们将不同研究模式中的多模态关系分为独立、组合两类。在独立的多模态的研究中，各个单一模态特征被割裂开来描述或解释。不同研究中，对比各类特征对意义传达等影响的结论往往彼此矛盾。例如，更高的图片亮度、积极的文本情感、更高的音调分别会增加还是减少受众参与？这些都还需要更多的实证研究以及理论解释。多模态话语分析的视觉语法（visual grammar）框架、心理学中探讨情感与态度形成的认知功能模型（cognitive-functional model，CFM）和扩展-建构理论（broaden-and-build theory）、区分图文认知方式的双重编码理论（dual coding theory）、区分不同路径下消费者态度和行为改变的详尽可能性模型（elaboration likelihood model，ELM）等均可能有助于加强对于特定的多模态特征对态度、行为影响的理论解释。

另一方面，相对于将不同模态割裂看待的方式，聚焦模态之间关系组合的多模态研究更值得重视。本研究显示，现有研究主要聚焦图文一致性等少数变量，需要进行更多的基于多模态特征组合的概念化。多模态之间的相互影响关系，它们共同产生的交互影响及其理论解释（如运用认知失调理论、平衡理论等），也值得进一步探索。

（四）推进研究的跨平台、跨地区发展

本文发现，目前的多模态计算传播研究呈现以图片为主导的研究倾向，并集中在少数国家和特定的视觉文化平台——图文结合的Instagram。这一现象与数据来源平台化的囿限有关：API作为数据获取的主要方式受制于平台对数据的垄断，这些数据只能在平台提供的“贮仓”（silos）内取得，平台也对获取数据的规模、条目做出了限制。各个平台有不同的数据结构，这也增加了跨平台对比的难度。同时，这也与不同地区的理论及计算方法的发展水平有关。由此，我们建议，多模态的计算传播研究学者在发展相关理论概念的同时，推进研究数据、研究方法的开源共享与跨国合作，降低研究门槛，促进全球多模态计算传播研究的发展。

（载《传媒观察》2024年第1期，原文约14000字，题目为《超越单一模态：多模态计算传播研究的进展与前瞻》。此为节选，注释从略，学术引用请参考原文。本文为国家社科基金重大项目（20ZDA060）、国家社科基金人才项目（22VRC186）、复旦大学文科先导和创新团队项目（IDH3353070）、复旦大学新闻学院科研创新项目（2023―2024）的阶段性成果。）

【作者简介】周葆华，复旦大学信息与传播研究中心研究员，复旦大学新闻学院教授，全球传播全媒体研究院研究员，复旦大学国家发展与智能治理综合实验室研究员

吴雨晴，复旦大学新闻学院博士研究生

随着计算方法的快速发展，超越文本的视觉计算传播研究开始兴起，但是仍主要体现为单一模态研究（只是从文本转向视觉）。周葆华教授和博士研究生吴雨晴在《传媒观察》2024年第1期刊文，强调在媒体内容消费多模态化的时代背景下，应当高度重视多模态计算传播研究的发展。通过对SSCI、A&HCI等核心数据库中的31篇多模态计算传播研究的内容分析，研究梳理了现有研究概况、理论概念、研究模式与操作方法，发现：多模态计算传播研究发展较晚，亟待加强；研究模式呈现多模态关系（独立/组合）×研究目的（描述/解释）的四个分类；数据主要来自图文社交平台；基于多模态特征生成的组合变量主要包括图文一致性、图文主题、叙事策略、攻击性指数等四种。最后。研究从应用生成式人工智能、推进理论建设、促进跨平台跨地区发展等方面，对多模态计算传播研究的未来发展提出建议。