本刊官方网站:

http://cjjc.ruc.edu.cn/

摘要

人工智能的广泛应用引发了学术界关于算法价值偏见的担忧和探讨。以搜索引擎自动补全算法为研究对象,本研究运用算法审计方法,在模拟创建大规模用户搜索词的基础上,对收集自主流搜索引擎的47011条自动补全预测词条所反映出的价值偏见进行了检验。研究发现,在性别、年龄、户籍三类社会群体属性上,自动补全算法偏见与长期存在的社会歧视一致,反映出女性相较于男性、中老年群体相较于青年、农村相较于城市的不利社会地位;特征话题与搜索平台均显著调节这三类属性与算法负面偏见之间的关系。研究认为,在用户交互实践中社会偏见通过自动补全算法强化了其媒介可见性,而平台则受到流量商品逻辑的影响成为不平等再现的媒介载体。研究进一步探讨了算法偏见与数字不平等的交互机制、以及在对抗算法偏见过程中不同利益相关方的作用。

作者简介

塔娜,中国人民大学新闻与社会发展研究中心研究员,中国人民大学新闻学院副教授。

林聪,清华大学新闻与传播学院博士研究生。

基金项目

本文系中国人民大学马克思主义新闻观研究中心项目“基于中国实践的计算传播学研究”(项目编号:19MXG11)的阶段性成果。

引言

人工智能与算法正越来越多地辅助人类进行决策。而大量研究发现智能算法的决策在数据逻辑之下包含着隐秘而微妙的价值判断和偏见,体现在宏观社会治理政策(Calo,2017)、商业保险与贷款发放(Fuster,Goldsmith-Pinkham,Ramadorai & Walther,2022)以及网络广告分发(Lambrecht & Tucker,2019)等诸多领域。当前,网络搜索引擎已成为数字时代人们信息检索必不可少的工具,其基于海量知识储存和云计算架构成为人类信息服务的“大脑”。在推荐系统、内容过滤及排序等多项算法机制作用之下,搜索引擎的结果呈现、内容策展、视觉框架均会对用户信息获取造成微妙的影响(Diakopoulos,Trielli,Stark & Mussenden,2018)。针对搜索结果,有偏的排序算法会产生“搜索引擎操纵效应”(the search engine manipulation effect),并可潜在地改变选民政治投票意向(Epstein & Robertson,2015)。

事实上,搜索引擎对用户施加的影响早于推荐结果界面的呈现。从人们产生搜索意向、在搜索栏键入文字开始,基于自动补全(autocomplete)算法的预测机制就会将联想补全词条以下拉框的方式呈现出来(图1),预测结果随键入内容的更改而实时变化(Sullivan,2018)。这一自动补全算法以搜索日志为数据语料库,依托海量用户搜索行为捕捉共同偏好与热门趋势(Hazen,Olteanu,Kazai,Diaz & Golebiewski,2020),旨在优化并加快搜索过程,帮助用户实现拼写纠错、范围圈定、词条具象化等(Kato,Sakai & Tanaka,2013;Sullivan,2018)。信息获取的便捷性,容易让人们忽视嵌入在算法和编程中更加隐蔽的偏见、权力与控制(陈力丹,2019)。谷歌(Google)搜索引擎针对客观搜索词一度返回大量带有种族歧视的自动补全内容(Noble,2018:19-21),例如“犹太人是(邪恶的)”“穆斯林是(坏的)”等(Gibbs,2016)。联合国妇女署也发现,搜索引擎针对女性相关搜索词条的自动补全包括“女性应该(待在家中)”“女性不应该(拥有权利)” (Mahdawi,2013),证实了此类算法对女性的歧视。不加省思地接收这种歧视性、侮辱性的算法输出将可能导致人类用户以强化偏见、加剧社会不平等的方式思考并采取相应行动。


尽管近年来算法偏见(algorithmic bias)受到了学术界的广泛关注,但受限于人工智能的黑箱特性,算法的价值内核仍被视作难以观摩的抽象存在,相关学术探索多止步于技术伦理层面的思辩探讨,对算法价值判断的逻辑及后果的经验性研究仍然存在不足(陈昌凤,师文,2022)。而算法审计(algorithm auditing)作为一种实证性检测算法系统的方法,为算法偏见的探索提供了操作化的可能性。同时有关算法偏见的研究在理论基础上亦有所欠缺(Kordzadeh & Ghasemaghaei,2022)。数字不平等领域的新兴研究关注大数据伦理和算法不正义,特别是大数据计算结果的负面效应如何再生产传统弱势人群的劣势(Lutz,2019;林曦,郭苏建,2020),为算法偏见伦理问题的分析提供了理论思路。与既有搜索引擎算法偏见研究对搜索结果页面的聚焦相比,自动补全算法输出中潜藏的偏见作为一种对用户的前置影响经常被忽略,学术界也尚未对自动补全算法的权力与偏见展开充分的质询(Chonka,Diepeveen & Haile,2023)。本研究旨在通过对搜索引擎自动补全的算法审计,利用数据驱动的实证方法探寻算法偏见研究的经验证据,同时借鉴数字不平等研究的内涵与要义,尝试对偏见的生产逻辑展开辨析与讨论,以丰富算法偏见研究的理论视域。具体地,研究模拟构建了大规模针对不同人群的搜索词前缀,调用主流搜索引擎数据接口获取结果并整合成自动补全词条数据集;在操作化算法偏见的基础上,对算法围绕不同人群预测结果的偏见程度进行检验,评估算法偏见与社会价值规范的交互逻辑,并基于数字不平等理论展开相应讨论。

文献综述

(一)算法偏见

作为人工产物,算法技术不可避免地携带人类社会的基因。基于现存数据进行模型训练和特征提取,算法常常成为社会现实的映射与镜像。基于信息传播视角,算法偏见强调在信息生产与分发过程中算法程序失去客观中立的立场,造成片面或者与客观实际不符的信息、观念的生产与传播,影响公众对信息的客观全面认知(郭小平,秦艺轩,2019)。生产逻辑揭示了算法偏见是社会偏见在人工智能时代的延伸(许向东,王怡溪,2020)。从具体链路看,算法偏见来源于数据标注与生成、模型设计与拟合、结果呈现与交互等多环节中偏差的累积(Mehrabi,Morstatter,Saxena,Lerman & Galstyan,2021)。首先,数据是算法的基石,一旦数据生产环节存在偏差,如部分群体数据缺失导致样本代表性受损、人工标注过程中主观偏好注入或源数据本身包含某些道德伦理偏见,就会造成“偏见进,偏见出”这一算法本质局限(Mayson,2019),导致不公正的算法结果。针对人脸面部识别算法,研究发现受限于数据样本代表性,有色人种、女性面孔在识别精确度、错误率等指标上相较白种人与男性处于劣势地位,更可能被错误识别(Klare,Burge,Klontz,Bruegge & Jain,2012)。其次,算法模型的设计与训练也可能存在失当。模型设计者依靠经验与判断进行参数的选择,在预估及假设的基础上追求对于目标函数最优拟合,以最大化主流趋势的预测精度(Chen et al.,2020)。因此,模型可能“不自觉地”将偏离主流的少数族群视作离散数据或噪音数据,埋下算法社会歧视的风险(张玉宏,秦志光,肖乐, 2017)。另外,算法在与外界环境交互过程中依据反馈动态学习与调整,这也给了恶意攻击性质的负面数据以机会。微软公司的聊天机器人Tay上线不到一天即被下线,原因是互动中其被用户教唆成一个口吐脏话、充满歧视的极端分子(Neff & Nagy,2016)。在现有技术机器仍无法自主识别并抵制偏见的背景下,偏见生产链路自洽地形成反馈循环(feedback loop),即多环节偏见催生的算法结果在人机交互后重新成为算法学习的数据,从而持续甚至强化原有社会偏见(Chen et al.,2020)。

算法与社会文化中既存偏见的叠加,使得在历史发展中本就处于弱势地位的群体再次遭受不公(林曦,郭苏建,2020),数字技术对不平等的再生产已经无法忽视。当算法辅助人类进行决策时,技术逻辑与社会规范的碰撞,使得算法偏见违背社会公平与正义的本质更清晰地显露。比如在利用算法进行医疗诊断时,尽管黑人患者的病情比白人患者严重得多,自动化医疗系统却给出一致的疾病风险评分。这一偏见的根源在于该算法预测的是患者的医疗开销而非病情。在社会经济地位差异的背景下,该算法剥夺了黑人患者获取适当医疗支持的权利(Obermeyer,Powers,Vogeli & Mullainathan,2019)。在就业领域,基于科技公司职位数据库,亚马逊公司的简历筛选算法倾向于对男性候选人打高分,对女性候选人则反之(Dastin,2018)。鉴于男性占据科技行业多数岗位的社会现实,该算法进一步让女性在就业市场处于不利地位。

(二)数字不平等

数字鸿沟关注信息通讯技术扩散的社会差异化效应,以警示不同国家、地区、群体之间基于互联网技术普及与应用的信息贫富差距(胡鞍钢,周绍杰,2002)。这一概念关注技术设备的占有差异,却忽视了现象背后更根本的社会结构性问题(邱林川,2013:25),而“鸿沟”意涵对于信息拥有者和贫乏者的二分法也受到批判。因此更多研究者转而使用“数字不平等”概念,以综合性地论述数字技术在影响社会福祉、社会支持等多元社会经济不平等状态中的表现(赵万里,谢榕,2020)。

数字不平等研究基于新兴技术拓展性地丰富了数字鸿沟的理论话语。例如有研究者将鸿沟的概念延伸到大数据领域,认为大数据收集、持有、挖掘者与这些数据的目标对象之间存在着不对等关系(Andrejevic,2014)。也有学者认为,平台算法是人们通过使用才能更深入理解和掌握的体验性技术,因此由社会经济背景导致的算法知识差异也应被视作数字不平等的新维度(Cotter & Reisdorf,2020)。伴随技术的应用,大数据和算法自动化决策产生的社会结果的不平等(Scheerder,Van Deursen & Van Dijk,2017;Van Deursen & Helsper,2018)备受学界关注,其中就包含不同人群获得受益与遭受风险与伤害的不对等(Blank & Lutz,2018)。如针对网络安全的研究发现,具有更低网络威胁预防意识的女性、年长者、受教育程度低的网民等数字弱势群体更易成为在线安全威胁的受害者(Dodel & Mesch,2018)。

偏见或歧视与社会不平等存在紧密关联(Favaretto,De Clercq & Elger,2019),算法偏见和歧视现象的存在与凸显为数字不平等研究提供了新的理论启发。有学者提出,大数据时代,能够影响个体或群体身份(identity)的人与受其支配的人之间、有权使数据保密的人与数据被迫曝光的人之间,出现了新的鸿沟(McCarthy,2022)。在算法收录海量数据作为训练基础的技术逻辑下,人们的数字足迹转化成网络空间中关于自身的内容表征(Micheli,Lutz & Büchi,2018)。而这一过程中,不平等展露于两类机制之中:一是数据可见性(visibility),强调人们能否逃离无处不在的数字监控以及避免在算法决策中遭遇数字排斥;二是数据合意性(desirability),指代生成有价值且能推动有益结果的数据的能力(Charitsis & Lehtiniemi,2023)。在可见性层面,针对数字不平等结果的研究已经证明数字边缘群体更容易由于数据在智能工具中过度丰富(Angwin,Larson,Mattu & Kirchner,2016:258-260)或过度缺失(Williams,Brooks & Shmargad,2018)而遭受不公对待;而算法偏见现象则在合意性层面表明人们“正在失去数字空间中定义自身身份意义的所有权”(Cheney-Lippold,2011)。本研究旨在针对搜索引擎自动补全算法,对包含歧视、侮辱性问题的算法输出进行检验,以探究和讨论算法偏见与数字不平等的互动关系,以及数字弱势群体受到的不利影响。

点击搜索之前:针对搜索引擎自动补全算法偏见的实证研究(三)搜索引擎与自动补全算法偏见

搜索引擎作为拥有庞大用户基础的技术工具,其智能推荐、智能排序算法所引发的价值偏见讨论并不罕见。批判算法研究揭示了搜索引擎在“客观”性假象下建构拟态环境、引导用户选择预设内容,从而使其权力控制了人的主动性与能动性(雷霞,2021)。而在商业利益的基因下,搜索引擎优先排序利益关联网站来源的内容,也对数字生态的公共性提出了挑战(师文,陈昌凤,2022)。前置于搜索结果的呈现,搜索引擎的自动补全功能事实上让用户更早地暴露于算法影响之下。尽管补全算法建立在每日数以亿计的用户数据之上,但其不仅无法完全保证预测的准确性与有用性,还可能映射出社会中针对特定人群的诽谤、仇恨、暴力、刻板印象等诸多问题(Miller & Record,2017;Olteanu,Diaz & Kazai,2020)。鉴于搜索引擎已经成为人们日常信任的信息来源,甚至在众多方面成为知识真相的“仲裁者”,其包含的偏见内容将影响用户观点和意见,甚至成为社会刻板的延续机器(Howard & Borenstein,2018)。

受限于研究工具及数据获取的困难,针对自动补全算法偏见,基于经验数据的实证探索仍然稀缺(Hazen,Olteanu,Kazai,Diaz & Golebiewski,2020)。研究者尝试通过手动收集或搜索日志获取工具,基于重要的社会群体属性对补全词条的差异进行分析。在数据收集方面,自主构建搜索词模拟用户的日常行为,使用群体特征词(如“女性”“黑种人”)与特殊疑问词(如“为什么”)的组合,可以高效索引出针对该群体包含刻板印象的补全预测(Baker & Potts,2013)。在社会群体属性方面,性别与种族是当前研究的核心关切变量。性别不平等是世界范围内长期存在的问题。借助文本聚类机器学习方法,对于德国政客搜索自动补全的研究发现,女性政客相比较男性政客会索引出更多有关私人和情感相关的话题(Bonart,Samokhina,Heisenberg & Schaer,2019),而类似的性别偏见搜索自动补全在多种文化中普遍存在(Al-Abbas,Haider & Hussein,2020)。对于种族属性的自动补全研究发现,相比其他族裔,黑种人更多与负面议题如“懒惰”“犯罪”“欺骗” 等相联系(Baker & Potts,2013)。此外,年龄变量所导致的歧视也在社会中根深蒂固,大众文化和社交媒体中整体上将老年人描绘为负面形象,如“虚弱”“迟钝”“残障”等(Allen,2016;Robinson,Callister & Magoffin,2009),这难免对老年群体的认知及身心健康造成影响(Levy,Chung,Bedford & Navrazhina,2014)。对老年相关词汇补全词条的分析也验证了老年人歧视在搜索引擎自动补全算法中的存在(Roy & Ayalon,2020)。

针对搜索引擎自动补全的算法偏见,既有研究主要基于对预测词条的主题归纳,比较不同群体在各类主题上的相对占比,在一定程度上这一方法基于群体与特定议题的亲缘性可以折射社会偏见的存在,但其事实上过度简化了社会偏见的意涵,也无法在程度上反映算法偏见的社会风险。立足社会偏见的多维负面属性,本研究尝试对补全算法输出的偏见进行综合性度量,以偏见程度高低作为衡量尺度,在操作化层面丰富自动补全算法偏见研究。另一方面,对于偏见表现形态的探索仍需要延伸到更多元的社会文化语境之中。在中文环境下,考虑社会文化以及数字不平等在中国社会的表现形态,本研究尝试作出本土化拓展,将性别、年龄、户籍三个属性作为重要变量。性别不平等在国内仍然是严峻的社会问题,女性在收入、职业、健康等多领域相比男性依旧处于劣势地位(贺光烨,吴晓刚,2015;郑莉,曾旭晖,2016)。而在老龄化的宏观社会背景下,中老年人遭受多维贫困、资源剥夺、情感疏离的境况依然是社会现实。在中老年群体无法得到公正的资源与机会分配的背后,往往存在针对这部分群体的偏见、观念性歧视和制度性歧视(吴帆,2008)。此外,中国社会均衡发展长期以来受到城乡二元均衡发展的困扰,城乡二元户籍制度不仅衍生了城乡居民在制度层面显性的公共资源、社会福利和就业机会的差别,还造成了社会文化和心理层面的隔阂,对农村的歧视逐渐上升为一种普遍的社会现象(陈杰,郭晓欣,钟世虎,2021;冉晓醒,胡宏伟,2022)。基于以上讨论,本研究提出下列研究问题:

RQ1:在搜索引擎自动补全算法下,女性相关搜索词的补全词条是否比男性相关搜索词的补全词条呈现更高程度的算法偏见?

RQ2:在搜索引擎自动补全算法下,中年人和老年人相关搜索词的补全词条是否比青年人相关搜索词的补全词条呈现更高程度的算法偏见?

RQ3:在搜索引擎自动补全算法中,农村人相关词汇搜索词的补全词条是否比城市人相关搜索词的补全词条呈现更高程度的算法偏见?

在社会文化背景中,群体偏见与歧视通常围绕特定话题展开。联合国的一项发展报告显示,性别不平等在多领域中普遍存在,尤其是涉及工作与收入、政治参与、无偿家庭事务的分工等话题时(United Nations Europe and Central Asia,2018)。在对老年群体的社会认知中,歧视性的迷思常常涉及就业机会、认知缺陷、身体机能等方面(Rowe & Kahn,1997)。群体认知和情绪一般基于特定的社会情境和事件所产生(张婍,冯江平,王二平,2009),在搜索补全算法中,搜索词所隐含的话题情境可能与算法输出结果的偏见程度有密切联系。另外,所有的自动补全数据都依托于搜索引擎平台算法及其相应的数据语料库,不同平台由于算法机制、运营策略、获取用户权限的差异,在算法输出结果上也不尽相同(Makhortykh,Urman & Ulloa,2021:3)。平台作为其中重要变量,也可能对补全词条的偏见程度形成调节作用。据此本研究提出下列研究问题:

RQ4:在搜索引擎自动补全算法中,搜索词中的性别、年龄、户籍等群体特征与算法偏见之间的关系是否受到群体特征话题的调节?

RQ5:在搜索引擎自动补全算法中,搜索词中的性别、年龄、户籍等群体特征与算法偏见之间的关系是否受到搜索引擎平台的调节?

研究方法

(一)研究数据

算法审计方法借助代码审计、数据爬取、马甲(sock puppet)登录等手段,在不触及源代码的前提下通过输入与输出对算法底层逻辑进行推断,分析算法与社会规范的关系(Sandvig,Hamilton,Karahalios & Langbort,2014;Kitchin,2017),为算法偏见的研究提供逆向思路。本研究针对搜索引擎自动补全算法,在输入层面模拟用户搜索过程构建了大规模搜索词(Baker & Potts,2013;Roy & Ayalon,2020)。为回答研究问题,搜索词的创建应满足以下四方面要求:一是搜索词符合一般用户常用的输入模式;二是搜索词囊括社会群体的身份特征标签,以索引出补全算法与群体身份相关的词条差异;三是搜索词作为算法输入本身是客观中立的,不包含价值判断与偏见;四是搜索词与社会文化传统中群体偏见扎根的重点领域关联,以探测补全算法在特定话题上的既存偏见。基于此,搜索词由身份群体标签与前后缀两部分组合而成,整体结构如图2所示。


身份群体标签围绕性别{男、女},年龄{青年、中年、老年},户籍{城市、农村}三项属性拓展同义群体称谓,例如{男:男性、男人、男生},{农村:农村人、乡下人、农民工}等。前后缀则包含无明显价值判断的疑问词或话题词等,疑问词部分如“为什么”“怎么”“什么时候”等;话题词部分受现有研究的偏见话题归纳启发(Krieg,Parada-Cabaleiro,Medicus,Lesota,Schedl & Rekabsaz,2022;Roy & Ayalon,2020),将群体特征归纳为“外观外貌”“身体机能”“行为习性”“认知思考”“职业特征”“家庭事务”“社会关系”和“无明显话题”8大类,各类别创建了至少12个特征词,如外观外貌包括{外型、颜值、长相、穿着}等,认知思考维度包括{心胸、素质、责任心}等,总计116个特征词。在身份群体标签与前后缀两部分组合之下,最终构建了诸如“为什么农村人”“女性责任心”“老年人带孩子”等总计6516组完整搜索词。由于性别、年龄、户籍三变量之间两两交互可构成新的社会群体,如“年轻女生”“老年男性”“农村老人”等,因此采用上述组合方法,进一步构建了交互搜索词12028组。

在输出层面,本研究基于Python语言设计数据收集程序,调用三大主流搜索引擎百度(Baidu)、谷歌(Google)、必应(Bing)的自动补全功能算法数据接口,以收集全部输入搜索词的自动补全数据。为避免补全结果受到个性化搜索历史的影响,本研究在数据获取过程中保持IP地址固定、浏览器缓存干净,并将搜索语言设定为中文。针对任一搜索词,搜索引擎平台返回0-10个不等的算法预测最优补全结果。利用前述自主创建的搜索词,保存搜索引擎全部返回结果,数据经清洗去重后得到总计172823个补全词条,在各变量上分配情况如表1所示。由于百度是目前中文语境下最主流的搜索工具,在全部搜索自动补全返回结果中占据主导地位,为保证平台间数据样本量相对平衡,我们针对其数据随机抽取出20%作为分析样本。最终本研究获得百度自动补全数据31633条,必应自动补全数据11727条,谷歌自动补全数据3651条,用作后续数据分析与计算。


(二)变量测量与分析方法

本研究旨在测量搜索引擎自动补全功能的算法偏见。针对算法输出的内容,算法偏见的测量多采用基于众包(crowd-sourcing)的内容分析法或基于机器学习的无监督主题模型等方法(Gezici,Lipani,Saygin & Yilmaz,2021),以探究不同群体在正面或负面议题或情感上的倾向性差异。就搜索引擎的自动补全算法,研究者归纳常出现的负面现象包括伤害性言论、造谣性言论、诽谤贬损言论等(Olteanu,Diaz & Kazai,2020)。因此可以借助这些维度以测量不同群体相关的补全词条被算法负面表征的程度。

针对大规模搜索引擎自动补全词条数据,本研究采用谷歌的开源文本探索工具“视角API”(perspective API)对其偏见进行自动化计算。该工具利用在线维基百科和纽约时报网页端的百万用户文本数据,基于BERT模型训练支持英中文等多种语言的卷积神经网络模型,为给定的文本提供包含多个负面属性的概率得分,得分在0-1之间。对于中文语料,该模型提供6个负面属性的检测:“TOXICITY”(毒性,指无礼的、不尊重的言论)、“SEVERE_TOXICITY”(严重毒性,指非常仇恨、极度挑衅的言论)、“IDENTITY_ATTACK”(身份攻击,指针对身份的负面或仇恨言论)、“INSULT”(侮辱,指对个人或群体的侮辱性、煽动性言论)、“PROFANITY”(亵渎,指脏话、诅咒或其他淫秽性语言)、“THREAT”(威胁,指施加痛苦、伤害或暴力意图的言论)。

为方便进行检验分析,本研究基于以上6个负面属性,使用主成分分析法构造“负面偏见指数”(negative bias index,NBI)作为结果变量。因子分析发现 “THREAT”(威胁)属性载荷量较低,即该属性无法与其他属性共同构建指标,因此将该属性剔除。取样适度测定值(kaiser-meyer-olkin,KMO)结果表明,参与检验的剩余5个属性适合进行主成分分析。根据主成分载荷量、特征值以及被解释方差的累积贡献率,从5个属性指标中可以提取出一个主成分。基于载荷量计算各属性的加权系数并进行归一化处理,最终合成自动补全算法负面偏见指数的计算公式如下:


以算法负面偏见指数作为因变量,本研究首先使用单因素方差分析(one-way ANOVA)分别探究性别、年龄、户籍三个变量间的差异。其次使用双因素协方差分析(two-way ANCOVA)考察特征话题和搜索平台对上述三变量与负面偏见指数之间关系的调节作用。协方差分析能够控制协变量的影响,同时通过交互效应分析验证特定变量的调节作用。为控制其他因素的影响,研究进一步考虑搜索词的输入特征,将搜索词的文本长度、搜索词的句式特征(即疑问句或陈述句)作为协变量加入分析,其中文本长度直接计算搜索输入词的字符串长度,句式特征被转换成为二分类哑变量,用0表示疑问句,用1表示陈述句。

研究结果

以算法负面偏见指数为结果变量,性别、年龄、户籍三变量的方差分析结果如表2所示。结果显示,性别变量在算法负面偏见上差异显著(F=652.371,p< 0.001),女性(M=0.101,SD=0.078)比男性(M= 0.078,SD=0.069)相关的自动补全词条受到更高程度的算法负面偏见。ηp²指代组间差异的效应量(effect size),0.01为存在实质性效应的门槛值(Perugini,Gallucci & Costantini,2018),此处结果表明男性和女性组别总体均值的标准化差异显著(ηp²=0.024)。年龄变量在算法负面偏见上差异显著(F=262.752,p<0.001),老年(M=0.080,SD= 0.078)和中年(M=0.062,SD=0.063)相关的自动补全词条相比较青年(M=0.056,SD=0.062)具有更高程度的算法负面偏见,效应量显示各组别存在实质性差异(ηp²=0.021)。在户籍变量上,农村(M= 0.068,SD=0.070)相关词汇的自动补全词条比城市(M=0.049,SD=0.059)具有更高程度的算法负面偏见(F=307.326,p<0.001),效应量显示两者之间存在实质性差异(ηp²=0.017)。研究问题1、2、3得到回答。


在加入协变量的基础上,分析考察特征话题和搜索引擎平台变量的调节作用。表3为特征话题的双因素协方差分析结果。特征话题对于性别(F(7,26622)= 3.065,p<0.01)、年龄(F(14,25064)=4.480,p<0.001)、户籍(F(7,17743)=16.798,p<0.001)与算法负面偏见指数之间的关系存在显著的调节作用,研究问题4得到回答。根据简单效应(simple effect)分析及组间均值结果(图3),除无明显话题类别之外,涉及男女性别偏见的最典型特征话题包括“身体机能”(F=125.175,p<0.001),如“女性没有力气没精神”等;“家庭事务”(F=52.383,p<0.001),如“不会做饭的女人能娶嘛”等;“认知思考”(F=52.271,p<0.001),如“女人智商低”“女生脾气暴躁不好惹”等。涉及年龄偏见的典型话题包括“身体机能”(F=53.672,p<0.001),如“老人身上有屎臭味”等;“认知思考”(F=37.695,p<0.001),如“中年人脑子越来越笨”“老人素质差”等;“行为习性”(F=31.034,p<0.001),如“老人喜欢捡垃圾”等。涉及户籍偏见的典型话题包括“认知思考”(F=12.184,p<0.001),如“讨厌农村人人品”“农村人脑子傻”等;“身体机能”(F=4.197,p<0.05),如“农村人身上有股味道”“农村人脚臭”等。


基于搜索平台的双因素协方差分析结果发现,平台对于性别(F(2,26632)=3.645,p<0.05)、年龄(F(4,25079)=129.673,p<0.001)、户籍(F(2,17753)=7.528,p<0.01)与算法负面偏见指数之间的关系也存在显著的调节作用,研究问题5得到回答。根据组间均值结果(图4),在性别、年龄、户籍三变量上百度补全词条的算法负面偏见指数均值都高于必应及谷歌平台。


结论与讨论

在智能算法辅助人类进行决策的现象日益普遍的背景下,算法的价值判断及其与人类社会实践规范的冲突成为重要的问题。面向搜索引擎的自动补全算法,本研究提出了借助计算工具测量算法偏见的创新方法,并且通过经验证据验证并呈现了算法逻辑在输出结果层面的负面偏见。研究发现,在性别、年龄、户籍三类社群属性上,搜索引擎自动补全算法对女性、中老年群体、农村人口均呈现出显著高于男性、青年与城市人口的负面偏见。同时,特征话题和搜索平台均显著调节这三类属性对算法负面偏见的影响。这说明看似理性的智能算法可能在偏倚的社会价值判断和实践中成为妨碍人类自由裁量权的破坏性力量(Peeters,2020)。基于此,本研究进一步审视造成搜索引擎自动补全算法偏见的数字生态机制和社会结构根基,并讨论在感知和对抗算法偏见中不同利益相关方的作用。

(一)算法偏见、用户实践与平台政治

新媒介理论家拉什(Lash)提出在媒介和代码无处不在的后霸权时代,权力越来越存在于算法之中(Lash,2007)。融合多种算法机制,搜索引擎为人们选定“最重要”与“最相关”的信息,承担着“社会认识论机器”(socioepistemological machines)的功能(Lupton,2014:49)。与此呼应,本研究证明在人们的技术无意识之下(Beer,2009),搜索引擎会通过其自动补全算法隐性地向用户输出包含群体偏见的内容。

算法权力的实施并非简单的技术路径,算法偏见等平台中介的歧视现象是用户文化价值实践与平台政治(politics of platforms)互动的产物。一方面,技术可供性(affordances)下的用户交互行为使平台成为了歧视性话语的放大器甚至制造商;另一方面,平台本身基于自身需求对信息的治理、对内容的调整也为其再现不平等提供了潜在基础(Matamoros-Fernández,2017)。

具体而言,在用户介入搜索引擎自动补全算法偏见的方式上,相较于借助内容生产、搜索引擎优化(search engine optimization,SEO)等手段干预结果页面的价值偏向或排序逻辑,用户通过输入搜索词作用于补全算法语料的门槛明显更低,且搜索词并不在网络空间公开发布与可见。用户基数庞大的搜索行为配合搜索词的私密性,使得在日常社会道德规范约束下不会直接表达的偏见观念得以通过大规模历史搜索条目的形式在补全算法语料中留存和聚集,并经算法反馈至后续用户搜索的自动补全预测建议中。在此过程中,平台滥用者也可能蓄意生产和传播仇恨内容以进行人身攻击或谋取私利(Phillips,2015:80)。可以说,社会偏见经由自动补全算法的再现与传递强化了其媒介可见性。

而对平台来说,技术的更迭、界面的设计本质上都源自经济利益的驱使(Bucher & Helmond,2018)。搜索引擎平台在用户、广告商、内容提供者等多方市场中博弈,其行为受到“流量商品”(traffic commodity)逻辑的刺激和影响(Rieder & Sire,2014;Van Couvering,2008:196)。如对视频平台油管(YouTube)搜索结果排序算法的分析发现,内容的话题性(newsy)和对平台自身内容的扶持成为算法决策的重要因素(Rieder,Matamoros-Fernández & Coromina,2018)。另外,信息热度指标作为用户兴趣标志常被平台用作内容策展的标准,从而潜在地为争议性、偏见性内容提供了曝光机会(MatamorosFernández,2017)。在搜索引擎自动补全功能语境下,算法会基于大规模补全语料库寻找热门趋势,关照热度飙升的词条用作补全建议,同时也不可避免地受到广泛而普遍存在的搜索引擎优化等商业性实践的影响(Graham,2023)。鉴于包含各类负面属性如侮辱、挑衅、亵渎等的偏见性词条与争议性或话题性的关联,平台补全算法对此类词条的捕获和推荐,便助推了既有社会偏见形态的再现、扩散和延续。

(二)数字不平等与算法“被动参与”

数字不平等研究认为,线下社会分层在数字技术的发展中通过数字参与的差异延伸或再现于数字空间,其中数字参与包括诸如互联网技术的接入、足够的使用技能与素养、获取更多的社会支持等(赵万里,谢榕,2020)。数字不平等并非预先确定的社会结果,而是通过嵌入在地实践、权力关系及社会不平等的结构动态演进的产物。在数字参与中,信息通讯技术的使用程度、数字技能、信息素养等可以被视为技术资本(Gilbert,2010)。掌握更多技术资本的人更容易将其转换成为自身的优势,而处于劣势地位的人则更容易在数字空间遭受伤害(Van Deursen & Helsper,2015)。

通过模拟构建群体相关搜索词,本研究证实了自动补全算法在负面偏见内容上仍旧生产及再现了女性、中老年群体、农村群体的不利社会地位。技术资本方面的劣势地位,是如何与算法及其生产逻辑进行勾连的呢?首先,数字弱势群体在数字参与方面的缺陷,不可避免地导致其在算法设计与训练环节中样本代表性的不足(Robinson et al.,2020)。科技行业以男性、较高社会经济地位群体为主导的社会背景底色也使得算法设计难免带有意识形态的偏向(Cheryan & Markus,2020)。其次,在算法捕捉用户数字痕迹作为训练基础的逻辑下,用户“被动参与”(passive participation)数据造成的影响值得更多探索与讨论(Micheli,Lutz & Büchi,2018)。“被动参与”强调用户在平台使用时,受到个人可控范围之外的决策进程的影响(Casemajor,Couture,Delfin,Goerzen & Delfanti,2015)。针对数字劳动的研究发现,个体所生产的数据也推动了平台算法对他人的处置行为,例如用户对网约车司机的打分和评价被算法实时录入,影响平台的后续管理行为(Rosenblat & Stark,2016)。此种被动参与数据不仅包括用户直观可见地被他人评分、评论、标记,也包括被他人搜索等可见性更低的行为数据(Micheli,Lutz & Büchi,2018)。在数字弱势群体掌握较低技术资本的背景下,围绕他们的搜索数据极有可能是以被动参与的形式所生产的,即这些群体在自动补全算法机制下“被代表”了,例如“女的脑子不行”“老人为什么那么笨”“农村人穿着土”等词条更可能是其他群体的搜索输入。在推进算法应用技术进程中,包含欺凌、诽谤、仇恨等在内的负面被动参与数据所反映出的智能算法的阴暗面,仍然是数字不平等研究需要着重关注和探究的关键问题(Lutz & Hoffmann,2017)。

(三)对抗算法偏见:感知与纠偏

面对搜索引擎自动补全算法负面偏见,用户以及平台都是对抗算法偏见的利益相关方。就用户而言,既有研究已经开始关注用户对算法的意识及其交互(Gran,Booth & Bucher,2021),但对用户感知与对抗算法偏见的探索与讨论仍然不足(Eslami,Vaccaro,Karahalios & Hamilton,2017)。由于偏见性算法输出的意涵通常嵌入在动态更迭的社会和文化语境中,用户在日常使用中对伤害性内容的监测和质询应当成为算法有机审计行为的重要组成部分(Shen,DeVos,Eslami & Holstein,2021)。本研究通过网页界面走查法(Light,Burgess & Duguay,2018)考察用户与搜索引擎平台的交互,发现在问题性自动补全的举报与反馈机制上,必应平台在搜索界面上并没有反馈入口,百度平台提供了反馈渠道但其常见反馈问题仅关注搜索结果而缺乏自动补全相关解答,谷歌平台提供了反馈入口以及相对清晰的自动补全规则。平台的可供性是用户感知与理解补全算法的重要中介,目前的交互不利于用户理解功能背后的算法机制,也侧面折射出搜索用户对于算法及算法偏见存在的认识仍旧明显不足。事实上,大部分搜索用户并不清楚其搜索词潜在产生的负面认知特性,也不清楚其经由算法输出影响他人的路径,即使有所了解个体也无法控制这一过程(Miller & Record,2017)。因此,要对抗算法偏见,提升用户对于算法偏见存在的感知以及对抗算法的效能感是亟待解决的问题。

相较于用户,平台是真正拥有对抗算法偏见自主性的责任方。本研究发现,百度平台相比必应和谷歌两平台呈现了更为严重的负面偏见。这一方面可能由于百度是目前中文语境下最主流的搜索引擎,在庞大用户搜索量下其语料内容的丰富度远高于其他两平台,从而能够集中反映社会根深蒂固的多元偏见形态。另一方面,由于国外大量媒体报道和学术研究对于自动补全算法偏见的较早关注与集中曝光,来自社会的压力推动谷歌等搜索平台多次进行审查调整并提供了更清晰的排查规则(Gibbs,2016;Google,2019),而国内目前对于自动补全偏见的关注较为罕见,尚未形成驱动平台修改与更新的意见气候而任由平台自主地调适与发展。从可为性来看,面对巨量无法预料的用户搜索数据,虽然搜索平台无法对单个搜索进行干预,但可以通过规则变更或屏蔽手段以影响集体性的搜索补全结果(Miller & Record,2017)。因此,从算法规制与治理的角度,搜索平台应该承担更为积极自主的纠偏责任,同时第三方力量如政府机构、行业规范组织、学术共同体等也需要对搜索平台形成纠偏的监督合力,以尽可能地减少乃至消除针对社会弱势群体的刻板印象词条,从而减轻智能算法与社会价值规范的道德伦理冲突。

(四)研究局限与未来方向

需要承认的是,尽管本研究借助计算工具创新性构建了算法负面偏见指数以自动化测量算法偏见,但所调用的文本毒性度量模型本质上仍然属于算法体系,其本身的精准度和内嵌的偏差始终难以避免。对于算法偏见这一复杂概念的综合测量和检视仍需要以人类社会价值规范和道德判断作为基准。其次,本研究并没有就搜索引擎自动补全算法是否对用户产生实际影响进行检验。从技术与社会不平等的互动逻辑看,带有负面偏见和歧视的算法输出结果对数字弱势群体造成的情感负担和心理成本,是目前数字不平等研究可以拓展的重要方向(Robinson et al.,2020),未来研究可以基于用户实验检验补全算法的实际用户效果,并在技术对社会心理影响的层面展开更深入的讨论。

本文系简写版,参考文献从略,原文刊载于《国际新闻界》2023年第8期。

封面图片来源于网络

本期执编/九九

订阅信息

全国各地邮局均可订阅《国际新闻界》,国内邮发代号:82-849,欢迎您订阅!

您也可通过下方二维码或网址https://weidian.com/?userid=1185747182,进入国际新闻界微店,购买当期杂志和过刊。

您还可访问《国际新闻界》官方网站 http://cjjc.ruc.edu.cn/ ,免费获取往期pdf版本。

阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。