“FINTECH - Reshaping the Future of Finance Services”
96 97 (environment)之間交互的任務,當中蘊含「智能體」因應外部環境 變化預測而作出的決策。 筆者試從人類生活的角度,來作說明。很顯然,我們每天都需要作出不 少決策。譬如,今天是否早點起床,早起,可望(預測)完成某些工作 任務;抑或懶床,多睡片刻,滿足甜睡樂趣,但某項工作便無法完成了。 起床或是懶床,當中便牽涉到決策選擇。 狀態觀察與行動 在決策過程有三種考慮。一,觀察當前的環境狀況(observation);二, 以此基礎採取行動(action);三,「智慧體」採取行動後,外部變化 所產生好或壞的結果,常以「回饋值」(reward)來表示,簡單地可用 「收益好壞」來理解。以上文的起床為例,早起,我可以完成某項工作; 懶床不起來,完成不了工作,但可享受多睡片刻的樂趣。怎麼選擇好? 顯然是以收益多寡與結果好壞作取捨。 人工智能決策也是基於上述的邏輯,通過數據,幫助「智慧體」去觀察 理解,在什麼情況下,採取什麼樣的行動,可以獲得最大的收益。譬如, 在商業物流上的應用,如何把貨物從 A 點運送到 B 點,物流路線那一 條可以最短,成本最低而取得更高的利潤。人工智能的智慧決策都可派 上用場,文章開首時提及東方航運與微軟的合作,利用 AI 節約成本, 從中可見其一斑。 AlphaGo 也是據此來完成與柯潔在圍棋上對弈的決策任務,下文再作一 些技術解釋。 預測與決策結合一體 再舉一個智慧體決策的例子。譬如,我參觀故宮博物館,我當然希望能 在最短或有限時間內,把所有名畫都悉數瀏覽,無一錯過。如何安排觀 賞路線,從而能夠達至理想目標?對我們來說,在當下情況,採取某項 行動,會考慮兩方面因素,一,當前的收益;二,未來的潛在收益。 在故宮,我當下所在的位置,我看到一幅名畫,很開心,這是當前的收 益,但我想前往另一處,參看另一幅名畫,但這幅畫所在的位置卻比較 偏遠,我需要走一段長路,浪費了較多時間,有可能延宕了我接著參觀 的腳程,預測代價較大,使得未來所得樂趣的收益減少,於是我考慮是 否改往二樓,這裡正舉行一個畫展,名畫很多,我預測可能得到很多樂 趣,在這一刻的時點,我需要作出決策。決策的目的,當然是希望看到 更多名畫所帶來的樂趣,結果,或選擇爬上二樓。 這個例子的決策過程,牽涉把預測和決策能力結合,並以當下與未來收 益作出綜合考量,以採取行動。把預測能力和決策能力結合起來,無疑 是深度增強學習的核心。 人工智能機遇與挑戰
Made with FlippingBook
RkJQdWJsaXNoZXIy MzUzMDg=