《人工智能治理与可持续发展实践白皮书》:直面六个热点争议问题!
阿里巴巴集团联合中国信通院编写了《人工智能治理与可持续发展实践白皮书》,全面总结了阿里巴巴在人工智能治理与可持续发展领域的实践,重点针对当前人工智能应用中的热点问题,从数据、技术、管理及多元协同等方面,系统性介绍了阿里巴巴的实践思路和方法,同时辅以若干专题进行阐释,期待为社会各界提供有益参考。
白皮书全文4.5万余字,将在9月正式发布,现陆续分享部分精彩内容。以下为第零章。
0.1人工智能的热点问题
随着人工智能技术发展步入快车道,业务数量和覆盖面不断提升,新业务模式和新产品持续涌现。与此同时也产生了各种科技伦理问题和挑战,特别是那些已经深入到日常生活方方面面的各类算法,引起了社会的广泛担忧。下面主要从阿里巴巴视角,梳理了社会热议甚至是争议的一些情景。
1.调度决策:外卖调度系统“困住”骑手
外卖平台引入人工智能技术和系统,会帮助骑手规划订单的取餐顺序和配送路线。在大大提升配送效率的同时,也引发了“困住”骑手的现象,例如系统规划的路径或预计的时长存在不合理情况,而骑手囿于系统限制,为了节省时间往往选择违反交通规则,给自身和他人带来安全隐患。
2.个性化推荐:电商场景下的信息茧房和马太效应
电商平台根据消费者的兴趣爱好、消费习惯等提供智能推荐服务,节省时间成本、大大提升了匹配效率,但也产生了信息茧房和马太效应。一方面可能出现推荐商品重复率过高的情形;另一方面系统倾向于推荐头部企业,导致市场资源更加集中,加剧了两极分化。
3.内容治理:如何守护清朗健康的网络环境?
部分不法分子在网络平台上,为了骗取流量,发布各式各样的儿童软色情内容,污染了网络空间,败坏社会风气,严重侵害了未成年人权益。这些低俗信息频繁出现,人工智能可以帮助清理顽固的信息污垢,守护清朗健康的网络环境吗?
4.信息检索:商品的销量和评价真实可信吗?
在电商平台上,商品销量和评价会在一定程度上决定检索中的排序,从而影响用户的购买意愿。这种机制催生了一些作弊行为,部分不法分子蓄意“灌水”,伪造销量数据,虚构大量相似“好评”。人工智能可以识别出其中的作弊数据,对抗黑灰产吗?
5.自动识别:人工智能可以放心使用吗?
2021年,美国底特律市的一位男子开启自动驾驶模式后,撞上马路中行驶的半挂卡车,不幸身亡。据分析,事故原因是自动驾驶系统将货车的白色车厢错误识别为蓝天白云,因而没有及时采取刹车制动等措施。之前也发生过数次类似事件,这难免让人们产生疑问,人工智能自动识别的结果可以放心使用吗?
6. 深度合成:眼见不一定为实
近年来,利用“深度合成”技术恶搞公众人物的事件不时发生,造成了恶劣的影响。随着“深度合成”技术和工具快速成熟与扩散,其风险不断增大,恶意使用极易造成虚假信息泛滥,可能严重妨碍司法公正、引发信任危机,甚至危害国家安全。
0.2人工智能的风险初步探析
引发人工智能风险的因素是多方面的,主要涵盖数据、技术和管理三个方面。一是人工智能系统依赖于训练数据,但时常存在数据选择偏差或质量低下等情况;二是人工智能技术自身还存在不可解释、鲁棒性差等一系列缺陷;三是企业原有的管理体系已经难以适应当前人工智能等新技术的发展情况。
1.数据不完备和滥用风险突出
1)数据不完备
人工智能进行自动化决策时,如果数据不充分、不达标,就会造成结论偏离的情况。例如,外卖平台的决策调度算法缺少对天气变化、交通状况、电梯的等待时间等数据输入,会给出偏少的预估时间,增加骑手负担;电商平台进行商品推荐时,如果仅使用用户的搜索、购买等行为数据,而缺乏对商品功能与用户兴趣点对应关系的认知,则易形成重复推荐的信息茧房。
2)数据投毒
如果训练集中混杂了虚假的数据,还会对算法形成欺骗,在自动化决策中给出错误的结果。比如在平台电商场景中,商品检索排序依据中包含了商品的销量、评价等信息,如果不法商家雇佣刷手虚构交易和评价,就会对排序算法形成欺骗,使其在排序结果中占据更好的位置。
3)数据滥用
技术进步扩大了用户个人信息的边界,互联网平台企业可以在线且及时的采集用户购买、收藏、浏览等行为,拥有丰富的算力资源和出众的算法能力,如果企业在借助人工智能对用户数据进行加工、使用的过程中不能够严格遵守法律法规,则可能因为数据滥用而损害用户的权益。
2.人工智能算法存在固有缺陷
当前,以深度学习为代表的人工智能技术在产业界广泛应用,取得了一系列突破,但其在可解释性、鲁棒性、偏见歧视等方面尚存在局限。
1)可解释性不足
深度学习算法的一个的显著特点是训练过程中自动提取特征,通常比人工挑选的特征效果更好,但这一过程目前尚不可控,在不恰当的数据集上算法可能选择错误的特征。例如,部分模型会把猫识别为狗,可能的原因是算法在自动提取特征时将背景作为了识别的依据,而不是动物本身的形态和细节。当待识别图像出现相似的背景时,会出现错误识别的情况。可解释性不足让人们不能理解算法的决策机理,同时也难以预测算法的行为。
2)鲁棒性不足
深度学习算法在训练过程中会对数据的鲁棒特征和非鲁棒特征进行学习,并依据这些特征进行识别。以图像为例,鲁棒特征可以理解为人类能够理解的语义特征,例如形状、纹理等。而非鲁棒特征为模型能够理解的用于对训练数据进行拟合的特征。非鲁棒特征给模型的安全性带来了极大的挑战。通常的,可以在输入数据中加入人无法感知到的轻微扰动,激活模型的非鲁棒特征,从而导致模型给出错误的结论。人工智能算法具有脆弱的一面,可能因为外部的恶意攻击行为,或者无恶意的非平常情况而失灵。
3)偏见与歧视
深度学习算法会挖掘训练数据集中不同因素的相关性,拟合数据分布特性,训练数据集本身的偏见与歧视,会被引入到训练出的模型之中。当模型应用于业务,尤其是用于自动化决策时,可能会暴露出偏见与歧视。当前在自然语言处理等领域,算法的开发普遍采用基础模型加精调的模式,基础模型本身存在的偏见与歧视还会传递到多个下游模型里,影响范围持续扩大。
3.企业人工智能管理体系不完善
人工智能等新技术特有的应用特征对企业的管理措施提出了极大挑战。一方面,过去为了鼓励创新和效率优先,通常让基层拥有较大的自主权;另一方面,人工智能新技术的负面影响通常不会立即显现,也难以全面评估。这就使得原有的体系并不能适应当前人工智能治理原则。
1)算法需要人为干预
由于人工智能算法固有的缺陷,需要对可能出现的错误结果进行干预纠偏。人工智能算法应用于自动化决策时,如果决策由机器单向做出,缺少相应的人类干预手段,会带来很多问题。比如,在商品检索应用中出现大量重复或相似商品,如果不做去重、打散等干预操作,会导致用户难以快速找到自己喜欢的商品。如果决策的对象是人,在客观上不应该仅由人工智能做决定,还应辅以制度、人情、环境和文化等人文因素。再如,外卖平台可能对骑手分配的单量过大,如果没有给骑手提供干预的渠道,会导致骑手劳动量过大,甚至引发安全事件。
2)用户权益保障不足
人工智能算法用于自动化决策,对用户带来明显影响,并不能做到完全技术中立,需要注意保障用户权益。人工智能应用对用户具有较强的支配能力,且具有信息不对称的特点。用户难免担忧这种支配可能伴随着偏见、歧视等不公平的对待,引发用户面对人工智能时的无力感:不知道人工智能使用了自己的哪些个人信息,不知道人工智能决策的逻辑,决策的结果自己也无法反对。这些问题的原因在于用户权益保障不足,包括知情权、反馈权与选择权、平等权等,导致用户失去对人工智能应用的信任感。
3)主体责任落实不到位
由于人工智能技术门槛高,且在企业中的运用往往呈现出高动态性、高复杂度等特点,使得外部难以理解其运行机制。而企业作为人工智能系统的设计者和服务提供者,最了解其中的技术细节和可能蕴含的风险,需要主动承担起相关责任,做好人工智能服务目的与运行机理的解释说明,充分评估潜在的风险并做出相应的防范。例如,人工智能合成内容已经非常逼真,在缺乏足够信息时,人眼和技术手段都很难分辨真伪。这就需要企业在提供生成合成服务的源头做好各项风险管控措施,包括认真履行用户身份验证、内容审核、添加标识等责任,避免新技术被恶意使用或滥用。