刊於《信報》,2025年4月7日
機構應用AI大語言模型須知要點
許佳龍
科大商學院署理院長;資訊、商業統計及營運學系講座教授;艾禮文家族商學教授
筆者過去在本欄撰寫了多篇文章,探討了AI大語言模型背後的一些生成邏輯和應用共通點。近日DeepSeek 大語言模型的面世、阿里巴巴的聊天機器人「通義千問」等開放免費使用,讓我們看到這類大語言模型愈來愈傾向開源發展;加上開發成本愈來愈低,使生成式AI普及應用之路,又向前跨出了一大步。
在此發展大趨勢下,機構或企業多不想落後於形勢,想充份利用新科技發掘出新的發展商機。最近,有些機構高層與我們討論並表示,其所屬機構正考慮如何應用生成式AI,因為看到DeepSeek 能夠以低成本開發,卻取得豐碩的成果,大模型對用戶的提問,輸出了令人滿意而詳細的回應,於是一些機構也很想自身擁有一個大語言模型,以配合助力機構的發展應用。
這個發展憧憬和願望,大家是否可做得到,如願以償?問題很值得討論。筆者手頭有一些資料,或可供參考。
再進行數據訓練成本不菲
表面看, DeepSeek大語言模型面世,這個大模型的數據訓練成本相對OpenAI的ChatGPT大大降低,然而成效卻足以匹敵,於是可能以為,原來訓練生成式AI可以那麼簡易,大家也可以自行製造,得到一個適用於機構或企業自身特殊應用的AI大模型?
走筆至此,筆者想首先釐清一個觀念——縱使有了開源式DeepSeek這種AI 技術創新應用或訓練方式,不過,如果我們下載一個像DeepSeek這種開源大語言模型,並且需要全面地訓練這個整體模型,以配合自身機構的發展之需,所耗用的訓練成本,實在非一般公司願意或能夠承擔得起。據DeepSeek的官方報告,DeepSeek所用的訓練成本約 500萬美元。這個數字,對一般機構或企業來說,負擔絕不輕鬆。
筆者和同事曾嘗試運用一個DeepSeek蒸餾版的較小模型,當中只有 700億個參數,並採用一個價值只需幾萬元的伺服器來操作,結果,即使可以操作和應用,但這始終只是一個經蒸餾的小模型,不可以與DeepSeek有幾千億個參數的全版本模型相提並論。事實上,一個幾千億個參數的大模型,顯然不是一般企業輕易可及,即使大企業也需要購入大量晶片,積累足夠算力,才能取得像DeepSeek-R1 這樣的效果。
因此,即使有了像DeepSeek、通義千問和文心一言這類開源大模型程式,但並不代表一般公司也可以據此語言大模型,進行配合自身需要的大數據訓練,建構出一個自身可「專用」的AI大模型,對這一點認識很重要。
機密信息外洩風險憂慮
那為什麼一些公司渴望進行自身的大數據訓練?原因可能有二,其一是公司有一些機密信息內容,不想暴露於外,遂不敢上載到雲端,於是對由第三方服務供應商在雲端提供的一個生成式語言大模型應用,有所疑慮。筆者所接觸的機構,不少有這種想法。
譬如,監管機構或政府機構未必敢冒險,把客戶的資料、或自身進行調查得出來的機構信息內容,放置到由第三方雲端管理的語言大模型上,擔心這個由第三方雲端管理的大模型,一旦吸納了這些機密信息內容,並運用到其大模型進行大數據訓練,這些「機密性」信息便有機會落入或暴露到外人手中。另一方面也要擔心個別用戶的私隱問題。這些憂慮,其實也可以解釋為什麼各國政府都積極研究能否發展自己國家的大模型。
的確,沒有人知道上傳的數據之後會如何運用,是否會變成大模型數據訓練的其中信息內容?基於這種憂慮,有不少公司不敢使用這些語言大模型公司的服務,避免私隱和機密信息出現潛在外洩風險。事實上,過往也有媒體報導過,一些機密信息內容嵌進了ChatGPT後,其他客戶找到了相關信息。
目前,開源大語言模型相繼推出後,普及應用情況的確有所提升。不過,除非我們把這整個開源大模型下載到自身的伺服器上應用,否則,私隱和機密信息外露的風險,始終未能消除。
「度身訂造」適切應用場景
換句話說,我們須要清楚,DeepSeek是一個開源大模型,但若果用戶下載了這個大模型後,毋須對此重新進行數據訓練,不用「度身訂造」(customize)個別的適切應用,只是把整個DeepSeek大模型放置在機構或公司自身的伺服器上應用,其實不用擔心有關私隱和隱機密信息外洩的問題,但此舉的應用無疑有局限性。
除了擔心私隱或擔心機密資料外洩問題外,另一個原因,是機構想擁有一個自身適用的大模型,可配合機構特殊的應用場景,或者配合到自身行業板塊之用,例如醫療行業或者金融行業,這類機構往往傾向訓練一個我們稱為context specific,亦即與其行業應用場景相關、可針對性應用的語言大模型。
如何解決這個問題?很顯然,即使把DeepSeek這個大模型下載到自身公司的伺服器上應用,也解決不了問題,因為DeepSeek只是一個通用大模型,並非專門針對個別板塊行業的應用。如果我們要獲得一個為自身「度身訂造」或行業專用的語言大模型,是有選擇方案的。囿於篇幅,另文討論。