微信图片_20201215112340.jpg
传媒观察丨算法新闻,拥抱人工智能谨防“技术霸权”
2020-10-07 06:42:00  来源:传媒观察  
1
听新闻

编者按:人工智能技术的崛起和广泛应用日益将我们置于一个大数据和算法环绕的世界,算法的权力无处不在,从股票交易量化分析到创作音乐,从购物网站智能推荐到自动驾驶,处处都有算法操盘运作的痕迹。算法可以决定一个人的贷款申请是否获批,也可以决定当你打开手机浏览新闻的时候看到什么样的推送。北京大学新闻与传播学院博士研究生敖鹏在《传媒观察》2019年第1期刊文,梳理算法在当下欧美数字媒体环境中的前沿应用实践,探讨其如何影响和变革新闻的生产流程,以及在这个过程中产生的不容忽视的新闻价值判断、客观性、算法责任等问题。

算法新闻,拥抱人工智能谨防“技术霸权”

敖鹏

作为新闻生产过程中的全新中介,算法给以新闻业为代表的公共信息和知识生产带来了一场全新的范式革命,在传统新闻业的方法论和观念认知层面带来突破和挑战,激发人们在全新的数字环境下重新思考新闻是什么,承担着公共知识生产功能的新闻要如何拥抱变化、同时又应该牢牢坚守什么。

锚定新闻:从海量信息中发现事实线索

在寻找新闻线索方面,算法作为一种数据驱动式的直觉雷达,通过一系列实时监测、聚类分析等机器深度学习功能进行数据挖掘,帮助记者在庞杂无章的信息环境中快速锁定到有价值的信息。算法可以通过对数据的量化分析,穿透表面纷杂将信息深处隐藏的特质或问题呈现出来,帮助导引人类记者将注意力关注到有价值的信息线索上面,从而生产更为有意义的报道。比如BBC的研发实验室就在Github里面开发了一款名为Data Stringer的应用程序,帮助记者监控不同数据库的实时更新变化,在某一地区某一时间失业人口激增、犯罪率激增等情况发生时给予记者提示,成为新闻生产链条上的关键起始环节。路透社则开发了专门的社交平台监控器Tracer,运用各种数据挖掘能力帮助记者实时关注社交媒体上大规模的内容信息走向。除了强大的监测预警功能,算法还可以通过对惯常数据的系统深度分析发现出乎人们预期的线索。这一应用目前最具知名度的案例就是BuzzFeed News在2016年关于网球赛造假丑闻的调查性报道《网坛骗局》(The Tennis Racket),记者对2009-2015年间26000场专业网球比赛的赌球数据和比赛数据进行深度发掘,从数据的异常发现了球员欺骗行为的存在。算法在这一过程中,为有价值的新闻线索的发掘提供了更为客观可靠的实证依据。

深度学习:对素材进行精密分析与核查

算法主导的深度发掘可以帮助记者更深刻地理解并驾驭日益广泛的数据和资料,为记者提供全新的报道视角或是对事件进行深层次、全方位分析,以及用于求证信源消息的可靠程度等等。从目前的应用来看,算法深度发掘主要有三种类型,监督式学习(supervised machine learning)、非监督式学习(unsupervisedmachine learning)和强化学习(reinforcement learning)。监督式学习(supervised machine learning)依赖于标签化的数据建立分类和回归体系,可以揭示数据之间的联系,对数据信息进行深度分析,帮助新闻记者挖掘到事件背后更为深刻的现实,获取更为独到的解释视角。比如,2016年,亚特兰大宪法报在医生性侵问题的报道方面,通过对十万多封机构文件进行挖掘分析,发现普遍存在医生在性侵不当行为发生后仍然继续正常执业的事实。非监督式学习(unsupervised machine learning)不依赖于预设的标签,可以用于揭示很多事物之间预期之外的关联,透过互不相干的信息表象挖掘出内在联结特征。强化学习(reinforcement learning)试图在算法进行决策的每一次都最大化奖励函数,找寻在具体情境中结果最好的方法,比如被应用于测试不同的报道标题以找到最佳标题。这三种类型在新闻业素材分析领域发挥着重要功能,独立或交叉应用于不同的情境,有效帮助新闻生产过程中的素材分析处理、趋势预测以及事实核查等方面,提高新闻报道的精度和深度。

除了对信息数据的深层次分析,算法的深度挖掘功能如今更被广泛用于新闻生产过程中的信息证实与事实核查,帮助鉴别消息和来源的真伪,甄别假新闻。密歇根大学和阿姆斯特丹大学研究团队在2018年最近的研究中开发的一套语义分析算法系统,识别假消息的准确率表现最佳时可达到76%,而人类自身分辨假消息的准确率水平大概在70%。而针对数字时代多种形式信息辨别的算法技术也在不断进阶,In VideoVeritas研究项目中开发的复杂机器学习算法可以帮助识别网络传播空间中的虚假图像和视频,准确率高达92%。但是,完全依赖算法来进行信息核查,以现有技术水平来看还是一件非常有挑战性的事情,虽然诸多网站如Politifact, Factcheck.org, Fullfact等事实核查组织,都在积极探索运用算法自动化进行信息的甄别,但目前最为行之有效并广泛采用的方法还是要人机协作共同完成。算法自动化在这个过程中协助人工核查,有助于高效地处理大规模的信息。

自动报道:更快、更广、更好生产新闻

如果说定位新闻线索和深度素材分析只是算法作为中介为新闻生产提供工具性支持,那么自动化新闻撰写则是实实在在地直接生产成品新闻,也因此成为对传统新闻生产冲击最为猛烈的部分。

首先,算法主导的自动化报道可以帮助提升新闻生产的速率。近年来自动化的机器人撰写新闻在财经、体育、天气预报、突发消息等信息传播内容简单、传播速度较快的领域应用广泛,尤其是天气预报领域的自动文本生成已经有20余年的历史。

其次,自动化新闻大大拓宽了新闻媒体的报道广度。拥有170余年历史的老牌通讯社美联社在2017年依靠算法实现了在每个财报季度生成3700多篇报道,覆盖了市值7500万美元的大部分美国股票,这个报道数量是不使用自动化生成状况下的10倍,相对于传统模式大大拓宽了报道涵盖的范围和种类。算法使得很多原来因为记者时间精力有限而无法关注到的部分都被呈现在前台,获得了与受众见面的机会。

是否动摇了新闻的本质和价值判断?

算法新闻通过机器化不停歇的数据处理能力实现了大规模海量消息报道的生成,在消息内容的覆盖面上达成了前所未有的广度,客观上造就了更多新闻信息的生产。但与此同时,对于受众而言,接收和消化新闻的时间是有限的,日益增多的海量信息中能够被看到、实现传播价值的只是一小部分。因此,我们不得不回归到最初始的新闻定义问题,究竟何为新闻,新闻的价值(news worthiness)是什么,究竟什么样的信息值得被关注、应该被报道、被传播。算法逻辑主导下的这些信息生成是否还能算作是新闻,是否还具有新闻价值。

在算法自动化生成信息时,往往是根据数据命令来对新闻进行检索,按照算法逻辑进行的大规模信息生产过程中,人类记者在实践中的应变和专业直觉很难量化为具体的数据判断指标,于是导致算法虽然可以生成大量消息,但很多消息的新闻价值确实值得商榷,无疑给受众带来更多的筛选困难。另一方面,算法作为辅助功能确实可以帮助人类记者在海量资讯中定位到新闻线索,但如果整个工作流程被算法主导,按照算法逻辑来指引记者的关注方向,那么整个模式本身在将记者注意力引导到特定方向的同时,是否同时也使得记者们放弃了关注其他方向更有意义的线索呢?当新闻机构运用算法进行数据挖掘来导引新闻发掘的时候,本质上是允许算法来优先进行新闻价值判断,这个过程实际上是由算法来形塑了什么样的内容会被报道,也进一步影响了受众将会消费到什么样的新闻。当算法左右了新闻生产的判断选择时,新闻的本质和价值在这一过程中必然受到强烈冲击和挑战。

算法主导的新闻生产会更客观吗?

算法在新闻传播分发领域会导致“回音室效应”和“过滤泡泡”一直是算法会引起偏见的主要证据,但在新闻生产领域,看似客观的算法就能完全规避偏见吗?2018年美国一家AI创业公司网站Knowhere宣称人工智能可以被用来撰写公正无偏见的新闻,这家网站通过对新闻消息的大数据挖掘和深度学习抓取信息并运用自动化算法重新撰写,在网站上提供每一条新闻的三种版本:左倾观点版本、右倾观点版本和中立版本,其算法新闻的应用创新获得了资本青睐,该公司在2018年获1800万美金的投资。但算法在这个过程中仍在不断获取借鉴人类判断数据,每篇标榜为“中立”的文章下面也会加入读者调查的环节,让受众阅读后根据自己的主观感受对文章的中立性偏颇程度打分提交至系统后台,事实上也是算法在不断搜集大数据来试图学习人的主观判断倾向。只依赖算法去做中立价值判断,在实践层面看起来是个仍需要不断完善的漫长过程。当我们回归到算法的工作原理本质,就会发现,姑且不讨论是否剥离人类记者在整个工作流程中的劳动,算法也很难比传统新闻更加中立无偏见。

如何解决算法新闻中的责任问题?

随着算法在新闻生产领域应用的广泛深入,算法所引发的责任问题也日益不可忽视。尤其是当算法在新闻生产的很多决策方面行使着越来越大的权力作用时,如何评估、监管和调整算法的权力就成了一个亟待解决的难题。算法作为一种新兴的权力中介,其在新闻生产中发挥的影响力越大,其相应的责任也就越大。算法本身不是完美的存在,一定程度是不可靠的存在,需要时时刻刻被纠偏,它作为一种人工劳动设计的产品,本身是需要不断被调试和修改完善的,没有任何一种算法可以一劳永逸地工作下去,谷歌公司平均每年都要修改其搜索引擎算法500-600次。新闻生产中算法常常导致失实风险、决策风险、偏见风险和隐私风险,由此衍生出的问题即是,在新闻生产过程中,算法导致的错误、偏差或是依据算法所做决策带来的不良后果,责任应该谁来承担,是算法开发者、产品设计者还是新闻决策者?同时,界定一个不良后果的出现是否要完全问责于算法?这些都给算法新闻生产提出了新的责任分配难题。算法在新闻生产过程中要承担多少责任,以及如何承担责任,新闻机构如何对算法进行时时刻刻的自我审查和纠偏,政府和相关监管机构如何介入新闻机构、企业的算法监督和制裁体系,一系列问题给新闻机构的新闻生产和政府监管都提出了新的挑战。

(载《传媒观察》2019年01月号,原文约10000字,标题为:算法新闻生产的前沿实践、问题及对新闻教育的启示。本文获《新华文摘》2019年第11期“篇目辑览”推荐。图表、注释等从略,学术引用请参考原文。)

【作者简介】敖鹏,北京大学新闻与传播学院博士研究生

标签:
责编:王迅 崔欣
上一篇
下一篇