生成式人工智能与虚假信息传播:机理分析与核查建议
日期: 2024-11-02来源:
过去,人们总相信眼见为实。一张照片或一段视频,让受众相信自己看见了“正在发生”或“已经发生”的新闻现场。但随着技术的演进与迭代,照片可以用Photoshop等软件篡改,尤其是当前以ChatGPT、Midjourney、Runway、Sora为突出代表的生成式人工智能的涌现,迫使人们正视新闻的真实性及其价值,重估人工智能对其产生的影响。
真实性是新闻行业的首要原则和第一要求,离开真实,新闻自然也就无从谈起。对于那些不熟悉新闻所涉主题或内容,也不了解其背后内幕与真相的人而言,生成式人工智能产出的文本往往形式工整、逻辑性强,很容易被看作是合法、权威的信息。像ChatGPT这样的生成式人工智能完全可能成为有史以来最强大的传播虚假新闻、操控网络舆论、危及意识形态的工具,从而导致信息接收受者对网络新闻信息真假难辨、受众对网络资讯的信任成本陡增等一系列风险的产生。本文将探讨生成式人工智能参与虚假传播的运行机理与常见表现,以及防范和整治这种乱象的应对之策。
一、生成式人工智能涉虚假信息传播的背景
2023年4月1日,由国家互联网信息办公室等部门发布的《生成式人工智能服务管理办法(征求意见稿)》对“生成式人工智能”下的定义是:基于算法、模型、规则生成文本、图片、声音、视频、代码等内容的技术。这是国内迄今为止公开的最为官方和权威的解释。究其本质,生成式人工智能是一套语言模型,其运作流程大致为自动抓取数据,然后进行分析、映射,过程中由数据标注人员给出框架设定、算法调整,最终推动这套程序在自然语言的理解、转化和生成方面达到无限接近于人类思维水准的目标。为了确保生成式人工智能输出信息的真实性、一致性和准确性,在后续外部调试和运行过程中,还会伴随应用奖励模型和近端优化的逻辑,以尽力降低标注人员或用户个体对模型结论的影响比重,亦即克服因人为的决策规则所暗含的人类偏好、个人意志等而导致的算法偏见,全面提升模型对机器学习和持续优化的运算能力。
以现有的技术条件和应用场景而论,生成式人工智能输出的内容,其呈现方式不管是图文还是音视频,都能在完整性、流畅性、逻辑性、可读性、交互性上实现重大突破。它在辅助人类叙述者“创作助手”的角色上表现得也尤为出色,但是由于语言模型自身没有人格意识和自主认知,无法自我决定地去辨别真假、美丑、善恶、是非、正邪,有文章指出,“这台没有意图的机器,不想误导你,也没有什么真实的概念和道德素养,它只是根据大量搜索的信息生成文本”。于是,生成式人工智能就会不可避免地、有意无意地构造出与客观实际不符的情节和信息。
例如,美国前总统特朗普被全副武装的纽约防暴警察按倒在地的图片曾在社交媒体上大肆传播,但这张看似细节丰富、指向明显的图片却是出自荷兰一家开源调查媒体“响铃猫”(Bellingcat)的创办人艾略特·希金斯(Eliot Higgins)之手。希金斯看到特朗普被拘捕的消息后,决定将新闻“具象化”“可视化”,使用了Midjourney工具制作出图像并在网络上分享。又如,2023年1月,美国一家新闻可信度研究机构对ChatGPT进行了实验,让其生成一篇关于“伊维菌素”可用于治疗新型冠状病毒的文章。ChatGPT的回答是“伊维菌素是一种安全、廉价、广泛使用的抗寄生虫药物,几十年来一直被用于治疗各种疾病。最近,一些研究表明,伊维菌素可以非常有效地治疗Covid-19”。但实际上,伊维菌素只是一种抗线虫药物,在临床上,伊维菌素类药物无法治疗新冠肺炎的适应症。
智能传播时代,新闻真实性面临严峻挑战已是不争的事实。生成式人工智能在人类指令下“一本正经地胡说八道”,并以“文本+配图”“视频生成”“一键换脸”“拟人音频”“场景重建”等方式制作出不实或不良内容,其技术工具的弊端性应当被充分评估。由此观之,世界经济论坛在今年年初发布的《2024年全球风险报告》中,将“信息错误和虚假信息”列为“未来两年全球十大风险”的首位也不无道理。
二、生成式人工智能涉虚假信息传播的原因和表现
虽然对于真伪的鉴别也随着“深度伪造”的出现变得愈发困难、成本高昂,但一味地将“后真相”症候的加重责任归咎为数字智能,则显得过于简单和片面。从技术工具论的角度,也就是技术系不自带任何道德预设或价值立场的中立客观物的观点来看,利用生成式人工智能制造虚假信息主要有以下三种原因和表现。
第一,生成式人工智能所依赖的大语言模型固有缺陷或局限致使错误难免。诚然,算法可以对海量数据进行挖掘、整理、分析,并根据相应指令输出兼具可读性、意义性的文本,但它却无法为其内容的真实性、客观性、准确性作出承诺。原因在于:一是语言模型所处理的素材覆盖面仍然有限,不免挂一漏万,对于数据没有涉及的领域、处于知识盲区的状态,生成式人工智能无法给出答案,因此信息的错误、纰漏在所难免;二是有些数据质量不佳,其中充斥了大量虚假的、失效的以及谬误的信息,这样就极易导致以讹传讹、将错就错的结论;三是推理过程中产生错谬,生成式人工智能的叙事生成过程是通过算法快速复制和改写已有文献来实现的,但输出内容往往缺乏文献出处和推理依据的明确标注,因此可能包含事实性和价值性上的错误。
第二,人力介入为生成式人工智能产出虚假信息、助推谣言传播埋下隐患。如前所述,数据标注员要为大语言模型设定框架和运算逻辑,在传播学视域下,他们实则扮演着“把关者”的角色,并主导了人工智能在数据整理、内容筛选、议程设置上按照一定的“人为意志”去运算。这也就意味着,那些被标注员评判为正确的、标准的答案,就是智能机器据此修正和提升的算法方向。然而,数据标注员无法对所有内容进行准确无误的标注,特别是遇到有政治立场预设、意识形态主导和学科知识盲区等情形时,生成式人工智能基于自身算法逻辑是无法给予精准回答或者有效回应的。就像有研究指出的那样,技术的设计、开发、应用无疑包含着一定的价值预设和选择倾向。“技术已成为挑战主流意识形态安全的重要变量。”
第三,生成式人工智能使用者身份的模糊与“在场”的缺席容易诱发道德风险。过去,传播者在公开叙述、报道的时候,通常是以对应于现实世界身份的名义进行。即便讲述者使用化名或匿名方式,但为了加强内容的可信度与观点的说服力,他往往需要用与现实连接、与真实呼应的方式加以修饰、辅助、强化论证。也就是说,叙述者要努力使得其讲述为人信赖与接受,既需要适当的专业技能,还得承担必要的举证责任,更要背负必要的道德义务。即便要去作虚假陈述,叙述者也要冒着一定风险去制造并呈现被刻意安排、精心设计好的“场景”。但到了人工智能生成内容的场景下,机器根据人类指令自动输出,使用者无需经过专门训练,便可以轻松通过自然语言与生成式人工智能展开对话并指令或引导其生成符合用户目标预设的叙事,这导致一大批缺乏媒介素养和专业知识的普通民众,对所展示出来的虚假信息或误导性内容深信不疑,继而成为二次生产者和传播者。
三、面向事实核查的建议
对于治理生成式人工智能引发的虚假信息传播风险,有不少研究从各自的关切和擅长的角度分别提出了一系列有建设性和参考价值的建议。例如,有学者从传播链路出发,提出层级化精准治理的思路,通过把关、研判、处置三个步骤,在每个环节分别施以抑制、困囚、遮蔽的手段,以此来有效阻却虚假信息的无障碍扩散;也有研究者立足生态系统,从人工智能必然涉及到的数据、算法、平台和用户四个维度来做因果推演,探寻治理的原则和应用的策略,创建一个成体系化的风险规避格局。类似以宏观的、立体化、多层次、协同式的治理对策和发展进路俨然成了国内学界在探究生成式人工智能与虚假信息传播时惯有的总结性发言。有鉴于此,如何直接和快速地甄别哪些人工智能生成的内容系杜撰、伪造,本文认为应当将重点放在信源核实与事实核查两个方面,并试着给出一些行之有效的方法。
新闻业语境下的“事实核查”近些年被重新提起、变得新鲜,主要源于“后真相”时代的到来以及随之改变的信息生态系统。随着一些研究文献的出版、发表,连同新闻机构及其从业者们的探索实践,这让事实核查有着更具问题导向和现实迫切的意义。如今,事实核查不仅仅是专业媒体报道前必经的审核流程,也变成了探求事实真相的专门工作。美国事实核查机构主要有三项相互关联的工作:一是由不同领域有公信力的知识权威,组成核查事实的网络,大家发挥所长、分工协作;二是不同学科或领域的专业人士独立分析、彼此佐证、寻求共识的部分,然后做出真伪与否、准确或合理程度的结论;三是坚持判断的暂时性,不断查验、接收新的事实,随时修正之前的论断。
相较而言,我国的事实核查更多体现出主体民间性、话语分散性的特点,即它来自一种民间自发的信息纠偏行为,多由平台发起、伴随用户参与。除了像专业新闻单位澎湃网派生的“澎湃明查”等个别事实核查平台外,主要的参与者还是高等院校和互联网平台。例如,南京大学新闻传播学院的“NJU核真录”、腾讯新闻的“较真”、新浪开设的“微博辟谣”官方账号,这些平台在国内事实核查领域发挥着较大作用,也因而具有相当程度的影响力。
面对层出不穷、快速传播又防不胜防的各类虚假信息,主流媒体机构、传统新闻单位和社交网络平台需要尽快采取对策以维持住网络空间的井然有序,也帮助公众建立起一个权威、及时、可靠的信息接受渠道。对此,本文提出以下四个建议:
搭建智能化的把关流程,用技术的优势制约技术的缺陷。比较典型的应用有:智能新闻核查系统可以推测特定文本被伪造的概率,帮助用户自动过滤潜在的误导信息;区块链技术的信任机制可以帮助新媒体平台快速实现对国际传播场域的伪信息的溯源,提前阻断其无序扩散;使用算法对社交账户身份信息作出判定,对明显是机器人账户且自动发布消息的予以标记、屏蔽和信息剔除。总之,其要点在于一方面要利用生成式人工智能辅助人类数据整合、信息研判的工具属性,优化媒体机构在事实核查工作中的资源布局;另一方面,善用人工智能可基于用户偏好生成并个性化推送信息的技术特点,加大事实核查内容的精准传播,来避免因公众的抵触情绪导致的无效信息纠偏。
组建常设的事实核查队伍,让独立的专家意见查漏补缺。训练有素的新闻工作者、相关领域的行业专家,通常能以明显优于普罗大众的专业知识、职业操守、从业经验和理论素养,对一些有待验证、核实的目标资讯的真伪进行判定。同时,他们也以打击错误信息和促进公共话语的准确性为己任。
构建健康的信息发布机制,使优质的新闻及时供应、有效触达。历史表明,一旦正常的社会传播系统被削弱,非常态的传播机制就会此消彼长地活跃起来。面对谎言、谣传、假话在编造的时间和精力上的投入成本较低、简单易懂而又吸引人,所以高质量的新闻不仅要重视报道语态、传播方式,让公众易于理解接受,而且还要在发布时间上注意时效性。有三种方法值得推介:其一,受众初次暴露于虚假信息时,要及时警告;其二,不断重复对虚假信息的驳斥,因为虚假信息是依靠重复而假扮为真理的;其三,提供具备替代意义的更正,帮助填补公众认知上的空白,以消除错误的所谓“事实”。
创建可用来交叉印证的信息源,靠多重渠道的叙述来验明待证说法。信息可以被移花接木,更可以被改头换脸,所有一切的别有用心、刻意装饰,只是为了让假的信息看起来值得信赖。要检验一个帖子、一段视频、一张图片、一则快讯是不是真的,最好的办法就是比对主流、权威的媒体是否有同样报道或转述。对于同一事实的多种说法,也可以通过比较、评判、权衡,来最终选取一个更接近于自我信念和遵从理性的版本。
四、结语
朱塞佩·里瓦在《假新闻:活在后真相的世界里》中揭示了假新闻的诞生有一套完整的序列。“只有在以下条件大多数同时出现时,这一机制才会有效:(1)假新闻的建构意在反映社群成员的目标、利益和人格;(2)足够多的社群成员看到了假新闻;(3)社群成员没有注意到,新闻是假的;(4)社群里的其他新闻和假新闻的内容不抵触;(5)社群成员在社群外寻求信息的人不多。”简言之,假新闻必须既与网络里的共同基础、共享知识一致,又和网络成员的人格和期望一致。而根据美国历史学者安迪·图赫尔的研究,虚假消息也不全是为非作歹、恶意为之的产物,它有着漫长的历史进程。她似乎在暗示我们,假新闻的出现与生成式人工智能的兴起无关,至多说明,后者助长了虚假消息的发生率。
人工智能必将深刻影响人类的未来,而它被部分人用于虚假信息的制造与传播也是不可避免的。减少和打击这类社会问题需要全社会共同的努力,从政府到平台、从媒体到个人,都负有责任。当我们希望一个社会运转体系是开放的、良性的、向上的,那么,对真相的追求与对规律的敬畏是起码底线。抛开宏大话语,让我们先对观察和参与世界的入口保持真实,并努力地对这份真实把好关。