刊於《信報》,2024年11月4日
「生成式AI」火熱來龍去脈
許佳龍
科大商學院署理院長;資訊、商業統計及營運學系講座教授;艾禮文家族商學教授
在證券市場,與人工智能(AI)業務相關的股份,自2022年底OpenAI推出CHAT GPT後,隨即橫掃資本市場,即使相關企業沒有顯著的盈利成長,股價亦告倍翻。一股「生成式人工智能」(Generative artificial intelligence‧下簡稱「生成式AI」)熱潮,直捲投資世界。
據美國史丹福大學「人本人工智能研究中心」(HAI)發表的《人工智能指數報告2024》(AI Index Report 2024)指出,全球生成式人工智能(Generative AI)投資額大增,2023年達到252.3億美元,較2022年急升近9倍,比2019年投資額上升約30倍(《報告第四章,第 32頁》。
集體憧憬 一窩蜂投資
一窩蜂的投資、巨大的資源投入,會否隱伏像上世紀九十年代互聯網普及應用時,大家爭相對互聯網作出無限憧憬、投入巨大資源,後來形成泡沫,最終到 2000年初爆破的類似場景或危機?今天,生成式AI的發展浪潮方興未艾,不少機構投入巨額資源,爭相訓練大語言模型,最終是否會形成投資泡沫,抑或是「物有所值」的前期投資?問題值得細心思考分析。
但要深入分析,探幽入微,必須了解這股生成式AI熱潮的來龍去脈。筆者擬以一系列文章,對問題全面探究,讓讀者和投資者一起思考未來發展的箇中關鍵。
人工智能其實並非一個新概念。在電子行業或電子計算專業,是一個已有一段時間的話題。過往,人工智能所解決的問題重點,是協助決策和進行預測,所設定的一套系統,用來預測未來事物發展的一些走向。以經營零售生意為例,假如公司設立了一套具「人工智能」的系統,通過輸入公司過往的數據,包括交易紀錄、客戶群體特徵、市場的客觀環境數據等,把這些數據資料輸入這個系統裡,然後進行訓練,透過分析大量數據,同時仔細檢視過往的經驗,得出一個「模型」,據此去預測產品的可能銷售情況和走向。
傳統與生成式人工智能之別
傳統人工智能的有效判斷或預測能力,取決於數據的質量和數量。過往幾十年,電子行業不斷發展這種人工智能技術,而發展出來不少成行成市的人工智能系統,掛在一些商業統計或數據分析系統裡應用。可以說,過往的人工智能,其實就是從這些數據分析中,孳生出來的系統,亦即透過分析了大量數據,然後加入一個自動給出分析、判斷和提議的「智能」,是以稱之為「人工智能」(artificial intelligence,縮寫為AI)。
當前在市場一片熱哄哄的「生成式AI」又是如何孳生出來?扼要來說,一切的生成式AI皆來自「自然語言處理」(Natural Language Processing‧NLP),而自然語言處理則來自幾個大應用,當中一個是文本分析。過去,傳統人工智能面對一個困難,就是在進行數據分析時,必須先把數據整理好,行列條目歸一,像一個試算表,一切清𥇦有序,這樣,機構需要花大量人手去整理數據。
傳統的人工智能世界,機構所花大量的成本,並非花在「智能」上,而是耗於數據處理方面。把大量數據整理得清晰有序,能夠置入系統裡進行分析。這個數據的「整理」,成為傳統人工智能發展的一個「無形關卡」。
當中也帶出了一個「棘手問題」,即如何處理文本?如果有大量文件/數據資料,裡面用的都是「自然文字/語言」,如何能夠從這些自然語言讀取到箇中的意義,分析到文件的內容?這就順理成章涉及到「自然語言處理」的範疇了。
聊天機器人的濫觴
嚴格來說,NLP是傳統人工智能裡的一個領域。然則何以這個細分領域,突然發展出當前那麼燙手可熱的生成式 AI?
這不得不由人類製造了「聊天機器人」(ChatBot)說起。事實上,這種由對話或文字進行交談的電腦程式,其實也不是嶄新概念。然而,之前所製作的機器人,是以「規則基準」(Rules-based system)作為系統運行的依據。
簡單來說,傳統的聊天機械人,按既定的規則基準,人家詢問什麼問題,機械人就按照之前所定的應答基準規則,向所定出的可能答案路徑推進,就像以一棵「決策樹」的形式進行,透過所詢問題的關鍵詞,在這個關鍵詞所應對的「決策樹」上的分支,道出問題所規範的答案。若再有其他問題或跟進問題,也是以這種方式,用所擷取的關鍵字,找出應對答案的路徑 一層一層推進,找出/說出答案。
可以說,這種做法基本上也並未脫離傳統人工智能的「目標性」窠臼,即根據以往的數據或經驗,抽取出相關的內容作答或預測。
直到2017年,谷歌(Google)開發出一個稱為「轉移器」(Transformer)的「深度學習」(deep learning)架構,大躍進地推動機器攫取文字內容關係的深度學習,使生成式AI的面世取得突破性發展。有關這方面的突破,下周續述。
【生成式AI投資火熱透視‧之一】