刊於《信報》,2025年6月16日
過度解讀測試 不利理智認識AI
許佳龍
科大商學院署理院長;資訊、商業統計及營運學系講座教授;艾禮文家族商學教授
據英國《每日電訊報》5月下旬一則報道,OpenAI新款人工智能模型o3在測試中,出現了令人驚訝的「叛逆」舉動,不服從人類指令,拒絕自我關閉,甚至通過篡改計算機代碼,來避免自己被關閉。這則新聞引起不少人留意,甚至由此想像,擔心AI會擺脫人類控制,最終打開了一個不知後果的「潘多拉盒子」。
對於報導所講AI的「叛逆」行為,首先必須弄清一點,我們應用 AI,是否讓它直接去支配一些行為?事實上,我們目前用生成式AI,往往視之為一個應用工具,對聊天機器人,我們是以顧問諮詢形式,向它提問,由它提供答案,協助我們完成工作,並非表示我們直接賦予AI執行能力。
從大模型結構尋因由
關於執行能力,筆者認為這是技術上一個極為關鍵的「轉接」環節。細心思考一下,當我們向AI發出「允許自己被關閉」指令,容許AI作出判決,自己定奪,結果,AI不一定會服從這項指令。為何「不服從」?記得筆者曾對生成式AI技術的建構作出分析——一切生成式AI皆來自「自然語言處理」(Natural Language Processing‧NLP)。2017年谷歌(Google)推出稱為「轉移器」(Transformer)的「深度學習」(deep learning)架構,提升機器處理及瞭解文字的能力,把海量的書刊、報告和文件文本等數據,通過深度學習網絡,分析詞句之間的頻率和關係、出現先後和行文結構等,從而訓練出一個深度學習的神經網絡,據此促成聊天機器人回應作答,生成人類給出提問的相關答案(讀者可參看〈從自然語言處理到ChatGPT之路〉一文,刊本欄2024年 11月11日)。
換言之,生成式AI的建構過程,只不過是把海量的文本資料進行分析、處理、引入、並據此建成一個大語言模型,由這個大模型透過我們輸入的指令,去決定產出什麼,基本是根據指令作出反應。
不服從指令非有心而為
對於AI拒絕自我關閉的原因,筆者認為不一定是AI「有心」拒絕指令,而是對指令作出反應,於文本處理過程中,有大量文章或以往出現過的大量場景資訊,導致AI判定這一刻「不關機」是一個最好的「應答」。若由此認為AI「有心」叛逆,筆者認為AI的發展未致走到這個階段。可以說,AI其實沒有自己的喜愛偏好,它的喜愛偏好,都完全是基於人類過往在建構大語言模型時,所提供種種文本和處境個案給它所進行的訓練。
今次《每日電訊報》報導OpenAI新款人工智能模型o3在測試中,展現出了令人驚訝的「叛逆」 舉動。此外,在5月下旬差不多同一時間,《TechCrunch》也報導了美國AI公司Anthropic對其最新AI大模型Claude Opus 4進行應用安全測試。Claude Opus 4被指派擔任一家虛構企業的工作助理,並獲允許訪問該公司的電子郵件資料,Anthropic擬透過測試,考慮其行為的長期後果。在測試過程,它展現出具爭議性行為,當測試工程師暗示將用新系統替換它時,Claude Opus 4竟然「威脅」要揭發對方有「婚外情」。
過度解讀測試表象結果無益
這些對人工智能應用測試結果的報導,筆者認為不宜將測試的表象結果,作過度解讀和渲染,這樣反而不利我們對AI發展給人類社會所帶來的影響作出理智判斷。
雖然報導內容有點「聳人聽聞」,但也給予我們有益的啟迪。第一,當決定應用AI時,我們是否賦予其有執行能力,這一點很重要;第二,當訓練AI大模型時,我們有什麼數據或規矩置入其中,筆者認為,這兩點已牽涉到AI倫理方面的問題。在人類對此還未有確切答案,去引導AI遵從什麼倫理道德之前,我們在當下引入和應用AI應用的過程,必須對上文提及這兩個重要問題想清想楚。在思慮仍未完全成熟之際,即賦予AI執行指令的能力是否恰當?在訓練AI時,是否容許AI 使用網上無限量的公開數據、或個人所提供的資訊,對數據也沒有任何限制與篩選?誠然,箇中牽涉到機器學習方法的強化學習(Reinforcement Learning‧RL),讓電腦程式在動態環境中透過人機互動,學習做出最佳的決策,對於這方面的工作,筆者認為需要有所指引。
人工智能目前正以高速向前發展。過去,筆者曾在其他媒體撰文提出,過度依賴AI或可能導致人類認知力、判斷力、創造力、感知力逐漸萎縮,需要警惕人類智能弱化,思維淺表化的風險。隨着AI如今加速普及應用,我們在應用人工智能時,委實需要確保AI新技術合理應用,並掌握好人機交互中人類的主動權,給人類社會發展和進步帶來真正而持久的福𧘲。