刊於《信報》,20241111

從自然語言處理到ChatGPT之路

許佳龍

科大商學院署理院長;資訊、商業統計及營運學系講座教授;艾禮文家族商學教授

筆上周闡述和分析了生成式AI發展之路的序曲——傳統人工智能的起點。到2017年,谷歌(Google)推出一個稱為「轉移器」(Transformer)的「深度學習」(deep learning)架構,以推進機器處理及瞭解文字的能力。所謂Transformer模型其實是使用一套數學技術,偵測一個系列中相互影響或依賴的資料原素,藉着由追蹤序列資料中的關係,學習上下文之間的脈絡及意義。這樣一來,一些研究機構便從中得到發展啟迪——即是否可以通過自然語言(尤其英文),當中的文法,詞匯,用字之間出現的頻率及先後次序,來發現字與字之間的關係,從而能夠製造出一個聊天機器人,可以自行產生答案作答,與傳統人工智能製造出來依靠「規則基準」作答有別。換言之,透過這個轉移器,應用到機器深度學習網絡系統裡,就能夠有效地從文本中學習語句,生產出貼切有用的信息。

要達致這個效用,必須要大量去了解到自然語言——英文,包括需要了解其文法、行文結構組織、字與字之間的關係、先後出現的頻率等等。當中,若干研究機構各有重點發展方向,其中一家廣為人熟識的研究機構,就是OpenAI。

ChatGPT橫空面世

在谷歌於2017年開發了Transformer後,OpenAI便投入大量資源,把大量公共英文書以至電子書的文字,通過深度學習網絡,融入Transformer的新技術,分析大量英文書的用詞用句之間的頻率和關係、出現的先後和行文結構等,從而訓練出一個深度學習的神經網絡,去協助機器人作答,當有人提出一個英文問題,便從大量用字用詞之間的關係中,製造出與問題相關的答案。

OpenAI於2022年12月推出ChatGPT( Chat Generative Pre-trained Transformer‧中文直譯為聊天生成預訓練轉換器),推出之後,令生成式AI的發展備受各方追捧,並予以無限憧憬。

可以想像,如果採用英文的文本數量愈多,作答所覆蓋的可能性便愈大,亦即問題與可能答案「對口」的相關性愈高、愈適切。ChatGPT,其實是OpenAI 發展GPT的第3.5代了。很顯然,聊天機器人模型背後的概念,其實就是GPT(生成預訓練轉換器)。追溯OpenAI發展GPT的歷史,經過了GPT1, GPT2,GPT3,到GPT3.5,即是為人熟知的ChatGPT。目前已有ChatGPT4, GPT4.5(即在GPT4下的ChatGPT),GPT4-o,據聞未來的GPT5正在研發之中。

換代升級優化「智能」

每一代的分別有兩端,其一,是新的版本加上了大量的文本,數量之鉅,遠超我們的想像力。已發展的GPT3或GPT4,所涵蓋的英文書和文本數量,可能比美甚至多於世界任何一個圖書館的藏書量;同時亦加上網絡上用戶所產生的內容。其二,是在適當的地方,插入人工的判斷。當預訓了這個聊天機器人後,也會「告知」機器人,其作答的答案並非適切或最佳,有什麼地方可以作出改善。透過這兩方面的提升,不斷去優化新的GPT版本,使聊天機器人的「智能」不斷提升,寫出來的答案不斷進步和更為準確。

不過,想深一層,聊天機器人的應用場景其實很有限。目前,應用聊天機器人的,主要是銀行或財金機構,或一般有客戶服務部,即需要對應客戶端頻繁電話查詢的機構。

應用飛躍的憧憬

然而,為何當前外界對生成式聊天機械人的反應如此熱烈?其中一個最主要原因,是當大家突然間發現,原來可以用「英文對答」之下,產生很多內容,於是開始意識到,生成式聊天機械人不只是「聊天」那麼簡單,而可以協助我們解決很多平時用語言說出來的工作,這無疑是一個相當大的應用飛躍。

很顯然,語言雖然只是一個媒體,但其背後所承載的,可以是很多不同專業的知識和經驗,譬如會計、土木工程、專業數學以至財經金融,這些廣濶無垠的知識和經驗都是通過語言來表達。當透過深度學習技術得出來這個碩大無比的「聊天」模型,其應用其實已超出了純語言溝通的範疇,而是透過語言這個媒介,觸及到媒介背後所涉獵的各種專業知識。雖則聊天機械人本身未接受過任何專業訓練,缺乏專業知識,唯一通曉的,是由深度學習神經網絡和轉換器技術,擷取及綜合前人所闡述、經過溝通交流的相關專業知識和經驗,並用語言呈現出來;按照前人所用的專業詞句或文章寫法,照辦煮碗,用同樣或類似的文字,去生成所需要回答的問題內容。

日前,據外媒披露,在ChatGPT面世即將滿兩周年,OpenAI公司預計12月前會推出新的AI旗艦模型,比當前的GPT-4強大100倍。但無論如何,生成式人工智能的「智能」,無疑有一定局限性,甚至其生成的內容隱藏「誤讀」,並非百份百正確,有機會誤導用戶。有關這個問題和機構一窩蜂開拓大數據語言模式之風,下周續談。

生成式AI投資火熱透視‧之二

Read Article