webwxgetmsgimg_副本.jpg
《传媒观察》|计算视觉传播研究:理论体系、范式转型与学术想象力
2024-02-08 10:56:00  来源:《传媒观察》  作者:于德山  
1
听新闻

编者按 近几年来计算机视觉技术发展迅速,为视觉(文化)传播研究提供了深描社会生活的无限契机,也为大规模、长时段、智能化研究带来新的可能性。于德山教授在《传媒观察》2024年第1期刊文,认为计算视觉传播使用计算机视觉方法,在方法体系、问题视域与解题标准方面带来研究范式的转型,为传统的视觉传播(视觉文化传播)研究注入了新的活力和新的学术想象力。同时,在计算视觉传播研究的实践中,我们还应该注意将这一研究范式与视觉传播(视觉文化传播)研究范式结合起来,注意西方研究相关工具与数据库的适用性,警惕其中可能蕴含的政治、国家和种族等方面的视觉算法偏见。在此背景中,增强计算视觉传播研究基于像素的图像与社会文化的阐释能力,发挥这一研究的人文关怀作用,从中国传统视觉精神、视觉(文化)传播实践与视觉经验出发,分析与预测中国视觉传播(视觉文化传播)的热点、难点与发展趋势,突出中国问题域的独特性,彰显其紧迫性与现实性。提炼出具有中国特色的计算视觉传播(视觉文化传播)研究范式,这是计算视觉传播研究理论本土化建构的意义所在。

 

视觉传播是传播学的一个重要研究领域,涉及人类视觉活动构成、视觉感知特征、视觉媒介、文化与意识形态蕴含等方面的研究。国内相关研究从20世纪80年代开始,产生于新闻摄影与艺术设计等应用领域,与新闻传播学、艺术学、文化学等不同学科生产相关知识之间产生了紧密的逻辑关系。近些年来,视觉传播研究逐渐拓展出广告效应、视觉感知、视觉修辞与说服、新闻影像效应、视觉政治、形象塑造与传播等重要研究方向,其中虚假图像、视觉框架、视觉议程设置、视觉模因、视觉修辞与阐释等问题以及传感器图像政治、图像社会动员等议题逐渐受到关注,成为研究热点。

一、视觉传播的理论体系及其范式

视觉传播的研究范式涉及方法体系、相关议题与标准规范,以往的视觉传播(视觉文化研究)具有以下一些特点:

第一,研究方法以话语阐释方法和定性方法为主。中国传统的画论和图谱学研究与传统文论类似,具有浑整性、意会性等基本特征,注重具体画作、画品分析与实用性,研究方法是典型的话语阐释方法。西方潘诺夫斯基、贡布里希、阿恩海姆的图像学理论之中,注重画作的分层、类别、图式流变与长时段风格研究,一些视觉研究范式开始凸显出来。而像巴特的图像研究则借鉴了符号学理论,将图像分为多重表意系统,开启了结构主义与图像符号学的图像分析。但是,结构主义的理论分析整体基于语言系统,其图像分析还是相对薄弱,这一情况影响了其后的电影叙事学与视觉叙事理论的发展。视觉传播研究除了使用话语阐释方法之外,还有意识地使用定量方法、定性方法或者实验方法。

我们知道,话语阐释方法历史悠久,善于以言评说图像,除了有可能揭示图像的艺术技巧和深刻意义之外,其本身也可能成为颇具艺术性的文本(题画诗和题跋)。然而,话语阐释方法以言释图,容易出现众口难辩的相对主义状况,同时,话语阐释方法成熟于静态图像(绘画)分析,其方法体系难以完全适用于影视等动态图像,更难以适用于短视频等短小动态图像分析。有论者曾经分析了视觉研究的三种方法——图像学、基于视觉意义和人文学科的视觉分析定性方法以及基于实验心理学的眼动追踪和心理生理反应测量,希望将这三种方法结合起来,强调视觉传播过程模型,由此加强对于意义归因过程、视觉感知和注意力过程以及大众介导视觉的心理生理反应的关注。可见此类研究方法有一定的创新之处。当然,图像的定量与定性分析一般样本量较小,无法适用海量的图像分析。以实验或问卷的图像研究方法与图像定性研究,一般缺少图像传播过程中的因果分析与受众观点、情绪效果等方面的大数据深挖,也无法深究不同主体间议程互动的影响关系。

第二,在问题视域方面,视觉传播研究的议题较为集中,受到传播学定量方法和定性方法的影响,其议题更是集中于视觉(视觉产品)感知、视觉传播效应和形象认同等方面,其研究视域主要集中在中观的规律、模型等建构方面,一般难以串联微观和宏观视域。比较而言,视觉文化研究的问题较为驳杂,宏观视域尤其是形而上问题的研究可能大而无当,微观视域可能失之琐碎。值得注意的是,各个学科的相关研究常常囿于单一视角,难以较好地融合。由于各种原因,以往的相关研究有些问题视域备受关注,形成厚厚的话语积淀,而有些问题视域则有意无意地被忽视,成为相关研究的难点、冷点。

第三,在解题标准方面,视觉传播研究之中的定量与定性研究尤其是实验研究讲究科学规范,其中数据搜集与验证、实验过程与结果表达等方面都要求遵循研究标准,强调可检验性和方法的可重复性;视觉文化研究以话语诠释方法为主,除了概念、范畴与逻辑等方面的规范性要求之外,一般情况下,其研究的规范标准并不突出。

总的分析,视觉传播研究与视觉文化研究的理论资源和研究范式不尽相同,经过多年的发展,二者逐渐凝聚出一些共同的关键词,例如媒介、文化、技术等等,体现出二者在一定程度上的交融。欧美的学术期刊Visual Communication Quarterly、Visual Communication一直强调广义视觉传播的包容性,发表跨学科和多学科主题的文章,包括视觉伦理学、视觉生态学、表征、各种形式的视觉媒体、视觉行为的问题与人类学、人文与文化地理、多模态研究和符号学、媒体与文化研究、视觉设计等等。在学科的归属方面,近些年尤其在中国,视觉传播研究乃至视觉文化研究越来越被归并于新闻传播学之中,并以课程教学与学会、期刊等方式确立归属。在当下超大规模的图像不断在各行各业被制作、应用和传播的语境中,研究新现象与新问题不仅需要多学科视角的融合,更需要超越以静态图像或影视为对象而总结出新的研究范式,进行一种研究范式的转型。因此,针对新的形势,我们要突破人文社会科学与自然科学之间的学科壁垒,采用最新的计算机视觉技术进行视觉传播研究的范式革新,由此回应社会文化传播的热点现象,开拓新的领域。

二、计算视觉传播的范式革新

计算机视觉(Computer Vision)是计算机科学和人工智能研究中最基本的领域之一,专注于计算机解释和理解视觉世界,其发展与人们对于生物视觉活动的研究进展密切相关。英国学者大卫马尔(David Courtnay Marr)是计算机视觉理论的重要奠基人之一。2009年,李飞飞发布ImageNet数据集,这是第一个用于计算机视觉算法的大规模标注图像数据集,它包含1400万张图片,超过2万个类别标注,卷积神经网络(Convolutional Neural Network,CNN)大幅提高图片预测准确率,计算机视觉研究有了质的飞跃。

目前主流的计算机视觉可用于各种任务,主要包括图像分类、目标检测、语义识别、图像分割、场景描述和图像生成、图文互换、图像恢复、三维重构等,其未来发展的“三颗北极星”分别是具身智能(Embodied AI)、视觉推理(Visual Reasoning)和场景理解(Scene Understanding),指引着计算机视觉发展的三个方向。从科学研究的角度分析,计算机视觉技术为人文社会科学研究提供了独特分析工具,将促进视觉传播与视觉文化传播的研究范式革新,具体表现在以下三个方面:

第一,计算视觉传播的研究方法。目前,市面之中有Python、OpenCV、TorchVision、YOLO、OpenVINO、NVIDIA CUDA-X、Google Vision API、ChatGPT、Midjourney、DALLE 3、Firefly 2、iMotions、Rekognition API等综合或专门的各种计算机视觉软件与模型(系统),这些软件与模型(系统)应用迭代更新迅速,同时,ImageNet、Open Images、Tiny Images、CoPhIR、Kinetics-700、LSUN、IMDB-Wiki、MS COCO、Cityscapes、Places、CMU-MOSEI、VisualGenome、CelebFaces、AffectNet、AFEW 7.0、Aff-wild2、AFLW、MegaFace、SVHN、TV News Archive、YouTube-8M等大型图像数据库也相继出现。国内的研究团队也创建了主要针对汉语的Multi-ZOL、CH-SIMS、IESN、Comics、FlickrLDL、TwitterLDL、RAF-DB、RAF-ML、RAF-AU、CASME、MMEW等各种视觉数据库。新近视觉语言模型(VLM)发展迅速,最新出现的LVM(Large Vision Model)模型已经具有扩展学习与视觉推理能力,还出现了Macaw-LLM、OpenAI 的GPT-4、Google的 PaLM-E等多模态大模型,延伸出卷积神经网络、视觉主题、视觉美学、多模态机器学习等方法,形成图像特征分析-语音模态分析-多模态分析的研究路径,为各种数字化图像和视频的量化研究提供了方法体系,使社交媒体时代的图像量化研究更具可操作性、可重复性与客观性、可信度。

第二,计算视觉传播问题视域的拓展。基于计算机视觉方法体系,计算视觉传播可能带来的问题视域既有各种视觉(视觉文化)传播的热点现象,也有从这一方法所特殊针对的新问题,我们可以从微观、中观与宏观三个层面分析。微观层面,计算视觉传播针对各类图像或者视觉活动,借助代码、算法、程序、建模、模拟仿真等手段进行图像像素的大数据采集,细分像素关系、线条、形态、纹理、颜色、饱和度、位置、构图、图图关系、语图关系、音图关系等图像信息标签化的分析要素,或者进行瞳孔检测、注视点、注视持续时间和扫视记录眼球运动等视觉活动要素分析;中观层面,基于视觉计算方法,从视觉主题、视觉情感、视觉框架、图像议程设置与视觉模因等视角入手,进行不同类别图像的内容分析、视觉话语分析、视觉形象、视觉修辞、视觉风格、视觉叙事与人工智能图像的智能化生成、视觉化社交等方面的研究,发现其中的视觉结构模型、图像传播动力模型、真假图像传播模型与多主体仿真互动模型、“图像议题-认同聚合”的释义模型等等;宏观层面,计算视觉传播是文化的问题,也是社会、政治、经济等方面的问题,涉及生产主体、文化政策、信息治理、平台经济、社会思潮、传播格局与生态等方方面面,这一研究基于计算视觉的大数据,充分显现计算视觉传播研究的技术特征与宏观优势。

第三,在解题标准方面,计算视觉传播强调研究的规范与标准,这一规范与标准包含着相关软件、数据库及其技术流程的使用要求,也蕴含着相关学术研究所积淀的规范要求。

总的分析,计算视觉传播是基于计算机视觉技术的技术型范式,这一范式强调以最新技术和相关大数据进行研究,与所谓的技术控制或者技术主义的范式不同。我们知道,传播学研究中的技术控制与技术主义范式主要指的是关注传媒中的技术及其影响问题。麦奎尔(Denis McQuail)将传播研究分为主导范式(dominant paradigm)和批判范式两大范式,这两大范式又可以细分为四种模式:传递模式、仪式模式、宣扬模式(publicity model)和接受模式。主导范式包含了传递模式和宣扬模式,批判范式则包含了仪式模式和接受模式。

麦奎尔认为“主导范式”将“大众传播具有强大作用的观念与社会科学所形成的典型研究方法——尤其是社会调查方法、社会心理实验与统计方法结合起来”,其中蕴含着西方“良好社会”的假设与大众传播的价值观念。这一研究范式秉承客观科学的研究态度,注重传播效果研究,强调定量研究与实验研究方法,极大地促进了美国传播学研究向实践方向发展。这一“主导范式”大致可以称为经验-功能范式(学派)。因此,计算视觉传播可谓延承了传播学研究的经验-功能范式,并极大地促进了传播学研究技术的最新发展。从另外一个角度分析,一些学者认为,计算视觉传播研究可以归并进当下计算传播学、计算社会科学之中,体现出技术体系在研究中的勾连作用和巨大活力。

三、计算视觉传播的学术想象力及其反思

计算机视觉技术快速发展,带动了计算机科学、图像图形学、信息情报学、电子工程学、心理学、认知科学、医学等众多学科的高度关注,也为文化社会学与计量电影学的研究注入新的活力。近几年逐渐兴盛的数字人文研究也涉及这一技术,使用这一技术的艺术研究也显示出独特的发现。目前,计算视觉传播研究体现了视觉传播(视觉文化传播)研究的最新发展,海外的Visual Communication Quarterly、Visual Communication、Communication Research、Social Media + Society、Convergence:The International Journal of Research into New Media Technologies、Journal of Communication、Journal of Computer-Mediated Communication、Journal of Advertising等新闻传播学的期刊都开始关注这一方法,有的甚至推出特辑,开设专栏刊发相关论文。

2022年初,Computational Communication Research期刊推出特辑Images as Data,刊发了使用计算机视觉方法进行研究的多篇论文,涉及政治人物与事件的视觉呈现、科学阴谋论的视觉框架、大众电影中的少数民族形象、竞选视频中的刻板印象、德国电视中的年龄与性别、新冠疫情期间电视新闻的视觉偏向等热点话题,同时介绍了构建多模态表征的深度学习框架、社会科学研究中视觉媒体计算美学分析的Python库、用于自动检测视觉媒体内容中社交角色的字符识别工具等使用工具。喻国明、陈昌凤、周葆华、巢乃鹏、吴晔、王国燕、金圣钧、陈安繁、王晗啸等中国学者也开始关注这一研究。

总的分析,国内外相关研究进行了视觉虚假信息的核实、视觉传播用户判定可信度、视觉效果、社会运动中的视觉信息使用与效果、社交机器人生成图像、品牌个性图像特征、视觉劝服、图像情感分析、视觉媒介化建构、视觉框架、视觉议程设置、政治人物形象、视觉算法审美观与偏见等方面的主题分析,使用了机器视觉学习技术、计算视觉主题、计算视觉内容分析、计算视觉美学、计算视觉实验等方法,由此大致可见计算视觉传播为传播学为主的学科所带来的研究活力,其学术想象力也被初步激发出来。

第一,计算视觉传播研究讲究微观、中观与宏观视角的结合,因此可以针对各类图像进行类型化、系列化与长时段的视觉特征分析,并可以结合视觉行动者模拟方法与典型图像总结视觉模式,探究各种视觉传播之中的因果关系发展与演化规律,进而分析、解释、预测各种图像和视觉传播活动。由此,计算视觉传播研究可以赋予相关众多古老话题、难点与争议问题以新的研究视角和分析验证。同时,计算视觉传播试图建构自然语言模态、声音模态和图像模态相结合的大规模多模态分析范式,探索基于眼动追踪算法的视觉活动数据搜集与分析方法,以期提出一套可推广、可复制的研究范式。

由此,计算视觉-多模态等研究方法可以解决简单的以语释图的古老难题,更加科学地进行语图、音图、图图之间的关系分析,揭示人类叙事的奥秘,以弥补国内视觉传播研究相对缺乏实证研究的缺憾。更可期待的是,计算视觉传播可以运用各种大数据进行实验模拟与预测研究,使用各种图像模拟各种视觉场景与视觉活动的可能性,增强研究成果的预测性和前瞻性;无监督学习与自监督学习在计算机视觉中应用,可以发现话语研究与小样本定量研究等研究方法所无法分析或可能忽视的问题,从宏观层面揭示人类视觉传播活动的盲点。

目前,我们注意到基于行业实践的计算视觉技术的不断发展趋势,其中还存在不少技术难点,而计算视觉传播研究的技术型范式与这一行业实践技术有延承,也有区别。比如,行业实践的计算机视觉技术大多用于自动驾驶、人机交互、医学影像、工业检测、气象监测等实践领域,一般目标单一(简单),无需过多的宏观层面的话语或图像阐释;再如计算视觉传播的数据库往往是现象导向、问题导向乃至文化导向的,而行业实践的数据库则多为实践应用导向的。实际上,各种数据都是经济、技术、社会和文化逻辑的复杂互动集合,比较而言,计算视觉传播的数据库常常更为复杂。因此,计算视觉传播需要不断结合计算机视觉的最新技术发展来调试范式体系;同时,任何关于大众媒介视觉在多模态背景下如何被感知和解释的分析,都应该以对视觉处理的生物学限制的科学理解以及坚实的文化意识的视觉交流方法为依据。

鉴于目前计算视觉传播研究对于图像与视觉传播活动的意义、修辞、风格、叙事等方面解释能力较弱,需要为其范式增加新的内容。英国传播学学者科伦(James Curran)曾经认为:“美国的(大众)传播学研究倾向于从效果方面考察传播,将之视为社会中相互分离的、个别的影响之源;而在英国,(大众)传播学研究中则倾向于将传媒视为社会的结构和文化的反映,从媒介在揭示社会本质方面考察媒介。”可见,从传播学的角度来看,也可能有主导范式和批判范式的融合。再集中于视觉传播研究方法,计算视觉传播可以结合传统的图像学、图像符号与图像叙事等分析方法,将计算视觉传播研究与传统理论资源所积累的各种图像话语研究有机地融合起来,并与视觉研究的实验方法、调查方法适当结合使用,以增强计算视觉传播研究基于像素的图像与社会文化的阐释能力。

第二,对于库恩而言,范式之中存在着众多竞争模式,由此促进新问题的提出和研究。计算视觉传播倡导技术型的研究范式,这一范式以视觉数据为研究基础,随着计算机视觉技术的不断更新而发展,正与当下视觉传播数字化的发展趋势相吻合,这也是计算视觉传播研究独特的优势所在。美国著名社会学家米尔斯(C. Wright Mills)所倡导的社会学的想象力是一种心智的品质,可以帮助人们“利用信息增进理性,从而使他们能看清世事,以及或许就发生在他们之间的事情的清晰全貌”。英国著名社会学家吉登斯(Anthony Giddens)在阐释“社会学的想象力”时,则将其引申为社会学分析不可或缺的三种感受力:历史的感受力、人类学的感受力和批判的感受力。可见都是在强调心智感受力对于社会科学研究的重要性。

在此层面,我们应该强调,计算视觉传播范式并不是万能的,我们应该尊重视觉传播与视觉文化传播的各种范式,计算视觉传播要与其他范式进行平等的对话,尤其需要融合批判范式的视域,这是这一研究未来能够充分展开学术想象力的基础,也是计算视觉传播可以批判性地反思数字资本主义的根本。同样,计算视觉传播也会同计算社会科学研究一样涉及到人工智能黑箱和研究伦理问题,比如视觉算法垄断与偏见、虚假图像检测、生成式人工智能图像滥用、视觉操作、视觉传播隐私侵犯、刻板印象等等。因此,我们在进行计算视觉传播研究时要时刻注意研究的科学伦理问题,体现图像互动及其研究的象征意义、人文责任与关怀。

第三,计算视觉传播研究的中国问题视域。近10年来,视觉传播与视觉文化传播越来越集中于新媒体空间之中,成为政治、社会、经济、文化与日常生活的表征,为计算视觉传播展开一个巨大而富有挑战性的中国研究问题视域,这是一个充满生机与极富学术想象力的研究空间。由此,我们的未来研究需要始终紧扣三个核心点:

其一,目前,计算视觉传播研究的范式体系和数据库主要以西方为主,虽然研究范式体系具有较强的共通性,但是我们还是需要注意西方研究相关工具与数据库的适用性,警惕其中延承现今支配社会学想象的欧洲中心主义知识可能蕴含的政治、国家和种族等方面的视觉算法偏见。

其二,始终突出中国问题域的独特性。视觉(文化)传播作为目前影响社会各界的热点现象,学界对此进行关注和研究,就必须始终突出当下中国社会、经济、文化等因素的独特性,在此背景中,从中国本土的视觉(文化)传播实践与视觉经验出发,分析与预测中国视觉(文化)传播的热点、难点与发展趋势,彰显其紧迫性与现实性。

其三,中国视觉传播的传统悠久,显现出独特而深刻的图像精神。中国计算视觉传播如何融合传统视觉精神?如何在大规模研究的基础上,提炼出具有中国问题意识的计算视觉(文化)传播研究范式?这是计算视觉传播研究的难题,也是计算视觉传播研究理论本土化建构的意义所在。

(载《传媒观察》2024年第1期“在场计算视觉传播”专栏,原文约12000字,标题为:计算视觉传播研究:理论体系、范式转型与学术想象力。此为节选,注释从略,学术引用请参考原文。“传媒观察杂志”公号全文链接:https://mp.weixin.qq.com/s/U5QHjTSoH29wMau4sMsxbg。)

【作者简介】于德山,南京师范大学新闻与传播学院教授,博士生导师,江苏省地理信息资源开发与利用协同创新中心研究员

标签:
责编:王迅 崔欣