刊于《信报》,2025年6月16日

过度解读测试 不利理智认识AI

许佳龙

科大商学院署理院长;信息、商业统计及营运学系讲座教授;艾礼文家族商学教授

据英国《每日电讯报》5月下旬一则报道,OpenAI新款人工智能模型o3在测试中,出现了令人惊讶的「叛逆」举动,不服从人类指令,拒绝自我关闭,甚至通过篡改计算器代码,来避免自己被关闭。这则新闻引起不少人留意,甚至由此想象,担心AI会摆脱人类控制,最终打开了一个不知后果的「潘多拉盒子」。

对于报导所讲AI的「叛逆」行为,首先必须弄清一点,我们应用 AI,是否让它直接去支配一些行为?事实上,我们目前用生成式AI,往往视之为一个应用工具,对聊天机器人,我们是以顾问咨询形式,向它提问,由它提供答案,协助我们完成工作,并非表示我们直接赋予AI执行能力。

从大模型结构寻因由

关于执行能力,笔者认为这是技术上一个极为关键的「转接」环节。细心思考一下,当我们向AI发出「允许自己被关闭」指令,容许AI作出判决,自己定夺,结果,AI不一定会服从这项指令。为何「不服从」?记得笔者曾对生成式AI技术的建构作出分析——一切生成式AI皆来自「自然语言处理」(Natural Language Processing‧NLP)。2017年谷歌(Google)推出称为「转移器」(Transformer)的「深度学习」(deep learning)架构,提升机器处理及了解文字的能力,把海量的书刊、报告和文件文本等数据,通过深度学习网络,分析词句之间的频率和关系、出现先后和行文结构等,从而训练出一个深度学习的神经网络,据此促成聊天机器人回应作答,生成人类给出提问的相关答案(读者可参看〈从自然语言处理到ChatGPT之路〉一文,刊本栏2024年 11月11日)。

换言之,生成式AI的建构过程,只不过是把海量的文本数据进行分析、处理、引入、并据此建成一个大语言模型,由这个大模型透过我们输入的指令,去决定产出什么,基本是根据指令作出反应。

不服从指令非有心而为

对于AI拒绝自我关闭的原因,笔者认为不一定是AI「有心」拒绝指令,而是对指令作出反应,于文本处理过程中,有大量文章或以往出现过的大量场景信息,导致AI判定这一刻「不关机」是一个最好的「应答」。若由此认为AI「有心」叛逆,笔者认为AI的发展未致走到这个阶段。可以说,AI其实没有自己的喜爱偏好,它的喜爱偏好,都完全是基于人类过往在建构大语言模型时,所提供种种文本和处境个案给它所进行的训练。

今次《每日电讯报》报导OpenAI新款人工智能模型o3在测试中,展现出了令人惊讶的「叛逆」 举动。此外,在5月下旬差不多同一时间,《TechCrunch》也报导了美国AI公司Anthropic对其最新AI大模型Claude Opus 4进行应用安全测试。Claude Opus 4被指派担任一家虚构企业的工作助理,并获允许访问该公司的电子邮件数据,Anthropic拟透过测试,考虑其行为的长期后果。在测试过程,它展现出具争议性行为,当测试工程师暗示将用新系统替换它时,Claude Opus 4竟然「威胁」要揭发对方有「婚外情」。

过度解读测试表象结果无益

这些对人工智能应用测试结果的报导,笔者认为不宜将测试的表象结果,作过度解读和渲染,这样反而不利我们对AI发展给人类社会所带来的影响作出理智判断。

虽然报导内容有点「耸人听闻」,但也给予我们有益的启迪。第一,当决定应用AI时,我们是否赋予其有执行能力,这一点很重要;第二,当训练AI大模型时,我们有什么数据或规矩置入其中,笔者认为,这两点已牵涉到AI伦理方面的问题。在人类对此还未有确切答案,去引导AI遵从什么伦理道德之前,我们在当下引入和应用AI应用的过程,必须对上文提及这两个重要问题想清想楚。在思虑仍未完全成熟之际,即赋予AI执行指令的能力是否恰当?在训练AI时,是否容许AI 使用网上无限量的公开数据、或个人所提供的信息,对数据也没有任何限制与筛选?诚然,个中牵涉到机器学习方法的强化学习(Reinforcement Learning‧RL),让计算机程序在动态环境中透过人机互动,学习做出最佳的决策,对于这方面的工作,笔者认为需要有所指引。

人工智能目前正以高速向前发展。过去,笔者曾在其他媒体撰文提出,过度依赖AI或可能导致人类认知力、判断力、创造力、感知力逐渐萎缩,需要警惕人类智能弱化,思维浅表化的风险。随着AI如今加速普及应用,我们在应用人工智能时,委实需要确保AI新技术合理应用,并掌握好人机交互中人类的主动权,给人类社会发展和进步带来真正而持久的福𧘲。

Read Article