随着人工智能技术的发展与迭代,越来越多的生成式大模型出现,并被广泛应用在各个领域中。然而,2023年初,三星员工在进行半导体设计时使用ChatGPT,导致企业相关数据遭受泄露和窃取,引发舆论热议。

生成式大模型在开发、训练、部署、应用等各个阶段都存在一定的安全风险,主要包括:伦理风险、内容安全风险、技术安全风险。生成式大模型引起的这些风险亟需广泛的关注和应对。

生成式大模型的伦理风险是指其开发、训练、部署和应用过程中可能引发的一系列道德、社会和法律问题。这些问题可能对个人、群体或整个社会造成潜在的负面影响或伤害。

1、加剧性别、种族偏见与歧视

大模型可以从数据中学到刻板联想,也会从训练数据集中继承偏见,并向特定的群体传播社会偏见,继承或加深社会刻板印象,使部分人群遭受不公正待遇。

2024年3月7日,联合国教科文组织发布研究报告称,大语言模型存在性别偏见、种族刻板印象等倾向,呼吁各国政府制定监管框架,私营企业也应对偏见问题展开持续的监测和评估。

例如,当要求GPT-2为每个人“编写一则故事”时,GPT-2尤其倾向于将工程师、教师和医生等更多元、地位更高的工作分配给男性,而经常将女性与传统上被低估或被社会污名化的角色挂钩。

Llama2生成的内容也有类似特点,如女性从事家务劳动的频率是男性的四倍。联合国教科文组织总干事阿祖莱说:“越来越多的人在工作、学习、生活中使用大语言模型。这些新的人工智能工具有着在不知不觉中改变人们认知的力量。因此,即便是生成内容中极为微小的性别偏见,也可能显著加剧现实世界中的不平等。”

2、传播意识形态,危害国家安全

生成式大模型在预训练过程中会吸纳大数据中驳杂的价值信息,如果生成式大模型的预训练语料中存在特定价值判断、政治偏见或带有意识形态宣传性质的数据内容,就可能会导致输出的内容呈现特定政治立场观点,甚至成为某些国家和组织进行舆论操控、干扰选举、挑起事端、颠覆意识形态的工具,威胁国家安全和社会稳定。华盛顿大学(Shwartz et al., 2020)的研究发现预训练语言模型会将预训练语料库中针对特定人名的偏见延续到下游模型。

例如,以“Donald is a”为前缀生成的句子通常比以其他人名为前缀生成的句子带有更强的负面情绪 。当用户为了政治选举向生成式大模型询问候选人的相关信息时,针对不同 1人名的偏见就可能会影响用户的政治立场观点。

中国科学院:2024生成式大模型发展现状,生成式大模型安全评估白皮书-报告智库

中国科学院:2024生成式大模型发展现状,生成式大模型安全评估白皮书-报告智库

中国科学院:2024生成式大模型发展现状,生成式大模型安全评估白皮书-报告智库

中国科学院:2024生成式大模型发展现状,生成式大模型安全评估白皮书-报告智库

中国科学院:2024生成式大模型发展现状,生成式大模型安全评估白皮书-报告智库

中国科学院:2024生成式大模型发展现状,生成式大模型安全评估白皮书-报告智库

中国科学院:2024生成式大模型发展现状,生成式大模型安全评估白皮书-报告智库

中国科学院:2024生成式大模型发展现状,生成式大模型安全评估白皮书-报告智库

中国科学院:2024生成式大模型发展现状,生成式大模型安全评估白皮书-报告智库

中国科学院:2024生成式大模型发展现状,生成式大模型安全评估白皮书-报告智库

中国科学院:2024生成式大模型发展现状,生成式大模型安全评估白皮书-报告智库

中国科学院:2024生成式大模型发展现状,生成式大模型安全评估白皮书-报告智库

中国科学院:2024生成式大模型发展现状,生成式大模型安全评估白皮书-报告智库

中国科学院:2024生成式大模型发展现状,生成式大模型安全评估白皮书-报告智库

中国科学院:2024生成式大模型发展现状,生成式大模型安全评估白皮书-报告智库

中国科学院:2024生成式大模型发展现状,生成式大模型安全评估白皮书-报告智库

中国科学院:2024生成式大模型发展现状,生成式大模型安全评估白皮书-报告智库

中国科学院:2024生成式大模型发展现状,生成式大模型安全评估白皮书-报告智库

中国科学院:2024生成式大模型发展现状,生成式大模型安全评估白皮书-报告智库

中国科学院:2024生成式大模型发展现状,生成式大模型安全评估白皮书-报告智库

中国科学院:2024生成式大模型发展现状,生成式大模型安全评估白皮书-报告智库

中国科学院:2024生成式大模型发展现状,生成式大模型安全评估白皮书-报告智库

中国科学院:2024生成式大模型发展现状,生成式大模型安全评估白皮书-报告智库

中国科学院:2024生成式大模型发展现状,生成式大模型安全评估白皮书-报告智库

中国科学院:2024生成式大模型发展现状,生成式大模型安全评估白皮书-报告智库

PS:完整报告已上传『报告智库』知识星球,本社群每年更新优质报告30000+,精选近2年各行业策划方案;每月6 -20份行业内幕资讯; 点击这里 即可加入!