科大商學院院長譚嘉因教授(右)和副教授楊毅分享開發「InvestLM」的心得,該項目為本港首個專為金融界而設、應用於生成式AI的開源大語言模型。
香港科技大學工商管理學院(科大商學院)研究團隊成功開發本港首個專為金融界而設、應用於生成式人工智能(生成式AI)的開源大語言模型 — 「InvestLM」,可就金融相關題目跟用戶對話,回應質素更可媲美知名商業聊天機器人,包括OpenAI旗下 的ChatGPT。研究團隊已公開該模型參數[i]及開發過程所得見解,以支持業界及研究人員應用大語言模型相關技術。
建基於擁有逾數十億甚至百億個參數大語言模型(LLM)的AI聊天機器人,在處理不同類型的即時文本生成任務有出色表現。由於開發大語言模型需要動用龐大資源,通常需要大企業才能應付,而年初面世的開源大語言模型改變有關情況,讓算力資源有限的群體也能根據自身需求訓練大語言模型。
科大商學院研究團隊通過指令微調技術[ii](instruction-finetuning),利用經精選的廣泛類型財經問答文本[iii]對開源基礎通用大語言模型LLaMA-65B[iv] 進行訓練,開發出先進[v]的財經領域開源大語言模型。研究團隊指出,「InvestLM」的表現獲包括對沖基金經理及財經分析師的金融專家評為可媲美最先進商用大語言模型,如GPT-3.5、GPT-4和Claude-2等[vi],印證「InvestLM」在理解金融文本的強大能力,同時具備提高金融專業人士工作效率的潛力,包括提供投資意見、撮寫財經文章、從文件報告中提取資料和總結等。相對於基礎通用大型語言模型LLaMA-65B,「InvestLM」在控制輸出「人工智能幻覺」內容方面有更好的表現。
科大商學院院長譚嘉因教授表示:「金融機構內部開發大語言模型,有助透過應用生成式AI取得競爭優勢,同時確保對專有資料及客戶數據有較佳管控。科大在擁抱生成式AI方面走在香港高等教育界前列,商學院這個大語言模型項目,不但為金融界於這發展迅速領域開展創新應用帶來啟發,更將性能卓越的財經大語言模型開放予各界使用。」
研究團隊成員之一、科大商學院資訊、商業統計及營運學系副教授楊毅表示:「金融領域的大語言模型,有的因屬於企業專有而未有公開,有的則質素偏低。據我們所知,『InvestLM』為首個開源財經領域大語言模型,獲金融界專業人士評為能夠按金融文本提供投資相關回應。通過分享針對生成金融文本對基礎模型進行微調所得的見解,期望這項目能夠為金融及其他領域的人士提供有用參考,以助把握生成式AI的潛力。」
研究團隊發現,相對於使用大量的通用指令訓練大語言模型,以領域特定(domain-specific)的高質素指令訓練大語言模型,對提高模型處理領域特定任務的能力更為有效;在算力有限的情況下,模型開發者通常使用規模較小的大語言模型作訓練,而棄用較大的模型。團隊亦發現,對於採用指令微調提升規模較小的大語言模型表現,成效高於規模較大的大語言模型。[vii]
有關InvestLM開發的更多資料,可參閱題為「InvestLM: A Large Language Model for Investment using Financial Domain Instruction Tuning」的研究論文,網址為https://arxiv.org/abs/2309.13064。InvestLM的模型參數可於https://github.com/AbaciNLP/InvestLM. 下載。[viii]
科大商學院院長譚嘉因教授(右)表示,「InvestLM」為金融界於發展迅速的生成式AI領域開展創新應用帶來啟發。科大商學院資訊、商業統計及營運學系副教授楊毅(左)則指出,「InvestLM」獲金融界專業人士評為能夠按金融文本提供投資相關回應。
完
關於香港科大商學院
香港科技大學工商管理學院(香港科大商學院)是一所年輕、創新和致力推動全球商學教育的學府。其卓越的研究成就和高質教學課程,廣獲各界認同,並於全球排名榜上名列前茅。有關商學院更多資料,請瀏覽https://bm.hkust.edu.hk。
傳媒查詢:
香港科大商學院
李應權
電話: (852) 3469 2090
電郵:dannyyklee@ust.hk
[i] 模型參數是模型在訓練過程中學習的數字,用於預測文本。參數亦可視為權重,控制模型處理生成文本任務時如何按輸入產生輸出。模型參數是參數模型能夠從數據中學習,並執行各種自然語言處理任務的核心構件,故對於實現建基於大語言模型的聊天機器服務十分重要。一般而言,模型參數越多,即模型規模越大,質素亦越高,但數據運算量亦會較多。
[ii] 預訓練及微調是訓練大語言模型的兩類技術。預訓練是用一般性文本語料庫訓練模型,而微調是讓大語言模型適應特定任務或數據集。預訓練一般需要長時間以及大量算力。
[iii] 用於訓練InvestLM的數據集涵蓋廣泛金融相關題目,包括特許金融分析師(CFA)考試題目、教科書、學術期刊、SEC申報文件、Stackexchange量化金融討論、財經相關自然語言處理任務,以及投資問題。
[iv] LLaMA-65B是由Meta公司開發及發布的先進基礎大語言模型,具備650億個參數。
[v] 研究團隊曾進行評估,比較InvestLM與其他大語言模型的性能,包括兩個經指令微調的模型﹐即OpenAI的GPT-3.5及GPT-4;兩個金融領域大語言模型,即BloombergGPT(一個500億參數的基礎模型)及FinMA(一個經指令微調、建基於LLaMA-7B的模型),以及基礎模型LLaMA-65B(InvestLM建基於此模型)。在評估的九項任務中,GPT-4於六項表現最佳,而InvestLM則於兩項表現最佳,可見GPT-4是最先進的商業大語言模型。
[vi] 商用模型的輸出是在2023年8月獲得。
[vii] 相對於較大的LLaMA-65B(一個擁有650億參數的大語言模型),領域指令微調能為較小的LLaMA-7B(一個有70億參數的大語言模型)帶來的改進更加明顯。換言之,倘因算力所限未能應用LLaMA-65B模型,而需要用較小模型,領域指令微調對優化這類較小的模型﹐可發揮更大的作用。
[viii] InvestLM採用與LLaMA相同的許可條款,即僅用於非商業及研究用途。