刊於《信報》,2025年4月28日
機密曝光風險難消 採中庸方案化解
許佳龍
科大商學院署理院長;資訊、商業統計及營運學系講座教授;艾禮文家族商學教授
筆者在本欄上兩期的文章,分析了機構或企業應用AI大語言模型須知的要點,並釐清一些易生錯覺的觀念,包括目前開源大模型像DeepSeek、通義千問和文心一言等開放給用戶免費使用,個別機構或企業下載了這些開源大語言模型後,別以為也可以結合自身的需要,對大模型自行作數據訓練,從而使這個大模型能夠配合到自身的應用,這只是一廂情願想法。
誠然,機構或企業希望自身可對大模型進行數據訓練,正如前文指出,原因有二,一是害怕機構或企業的用戶私隱、或公司機密信息外洩,通過對大模型作自行數據訓練,可以把私隱或機密信息密封,避免外洩之虞。二是想有一個適用於機構、公司以至個別專業行業應用場景的大語言模型。
微調與檢索增強生成選擇
從目前發展情況看,機構或企業想得到一個自身適用或行業板塊的AI大語言模型,有兩個方案可供選用,其一是「微調方案」,其操作是當我們下載了相關開源程序後,例如DeepSeek,在這個大模型的程序文檔上,再進行數據微調訓練,但在訓練過程中,採用大量與自身相關的特定數據,對大模型作出微調訓練,使模型的輸出反應,能夠切合特定任務或專門領域的提問。
其二是「檢索增強生成」(RAG)方案。簡單來說,這個方案是機構或企業需要建構一個自身的文檔數據庫。以醫療行業為例,我們建構一個龐大而相關的醫療文檔數據庫,然後用一個程式介面(Application Programming Interface‧API),接入到這個大模型之中,讓這個大模型直接在這個特定文檔數據庫中,找尋並提取相關信息資料,作出回應輸出。
RAG這個「檢索增強生成」方案的成本較微調方案為低,而且毋須對AI進行重新訓練,並結合外部的文檔生成更精準的回答,似乎更符合一般機構或企業的選擇。
機密文件外洩風險難除
但是,RAG方案也有一個問題——也是一個老問題——即機構或企業仍然需要把「自建」的數據庫,寄掛在服務供應商的平台上。到㡳這些服務供應商會否百份百保証不挪取你數據庫中的信息資料?雖然平台服務供應商有服務質素的保証,有「用戶協議 」(User agreement),白紙黑字承諾不會挪取用戶的數據信息,不過,個別機構或企業或始終放心不下,沒有完全信心,舉例來說,在某些國家或地區,若其法制容許通過法律指令,去強制平台必須透露用戶的數據資料,在這種情況下,使用RAG這個方案,顯然仍然未能保証機構或公司的機密信息或文檔,可以封包得密不透風,不被挪用。
既然RAG方案仍帶着私隱或機密資料可能外洩的風險,那麼機構和企業可以怎麼辦?
取乎中庸的方案選擇
一個安全的方案,筆者初步想到其中一個方法是,機構或企業可能需要與大語言模型服務供應商合作,一方面自行建構一個自身的數據庫,然後下載一個大語言模型,在自身機構的範圍內應用,還自己做RAG,不過仍然採用通用語言大模型,整個系統不是置於雲端或服務商上,而是在自家機構的平台上應用。這樣做,成本相對會較高,所需的程序和工序亦較多,要投入相當人力物力,但相對目前可行的方案選擇中,這個方案,相對算是取乎中庸之道,不過,說到底,這個方案仍然需要得到像微軟、阿里巴巴和DeepSeek等機構大量的配合和合作。
這個取乎中庸的方案,相信可符合機構或企業機密文件資料的保障要求;亦能夠成功建立一個適合自身專業領域所需應用的生成式大語言模型。可以說,這個方案是在之前討論的兩個方案中,採用一種折衷性選擇。
當然,相對徹底的做法,是採取「微調方案」,因為微調方案是把下載了大模型的程序後,用機構或企業自身「度身訂做」的文檔及數據,去進行大語言模型訓練,並嵌入了自身專業的行業知識和相關文檔,這個經微調的大模型,由始至終都可以為自身機構或企業之用。不過,這個方案所牽動的巨大成本,相信大部分公司或可能用不着。但從「一勞永逸」的角度說,「微調方案」會優勝一籌。
AI科技浪潮加速前行
總的來說,在人工智能技術快速發展的今天,技術應用的範疇也不斷擴展,如何有效整合最新的 AI 技術,來增強企業的分析判斷與決策能力,並且推動社會經濟發展,是各相關持份方包括企業、技術研究人員以至政府決策官員關注的焦點。目前, 開發AI生成式大語言模型的應用潛力和應用範圍,正有加速發展之勢。AI如何改變商業發展模式和人類日常的生活習慣,這股發展新浪潮很值得我們密切留意。