“FINTECH - Reshaping the Future of Finance Services”

96 97 （environment）之間交互的任務，當中蘊含「智能體」因應外部環境變化預測而作出的決策。筆者試從人類生活的角度，來作說明。很顯然，我們每天都需要作出不少決策。譬如，今天是否早點起床，早起，可望（預測）完成某些工作任務；抑或懶床，多睡片刻，滿足甜睡樂趣，但某項工作便無法完成了。起床或是懶床，當中便牽涉到決策選擇。狀態觀察與行動在決策過程有三種考慮。一，觀察當前的環境狀況（observation）；二，以此基礎採取行動（action）；三，「智慧體」採取行動後，外部變化所產生好或壞的結果，常以「回饋值」（reward）來表示，簡單地可用「收益好壞」來理解。以上文的起床為例，早起，我可以完成某項工作；懶床不起來，完成不了工作，但可享受多睡片刻的樂趣。怎麼選擇好？顯然是以收益多寡與結果好壞作取捨。人工智能決策也是基於上述的邏輯，通過數據，幫助「智慧體」去觀察理解，在什麼情況下，採取什麼樣的行動，可以獲得最大的收益。譬如，在商業物流上的應用，如何把貨物從 A 點運送到 B 點，物流路線那一條可以最短，成本最低而取得更高的利潤。人工智能的智慧決策都可派上用場，文章開首時提及東方航運與微軟的合作，利用 AI 節約成本，從中可見其一斑。 AlphaGo 也是據此來完成與柯潔在圍棋上對弈的決策任務，下文再作一些技術解釋。預測與決策結合一體再舉一個智慧體決策的例子。譬如，我參觀故宮博物館，我當然希望能在最短或有限時間內，把所有名畫都悉數瀏覽，無一錯過。如何安排觀賞路線，從而能夠達至理想目標？對我們來說，在當下情況，採取某項行動，會考慮兩方面因素，一，當前的收益；二，未來的潛在收益。在故宮，我當下所在的位置，我看到一幅名畫，很開心，這是當前的收益，但我想前往另一處，參看另一幅名畫，但這幅畫所在的位置卻比較偏遠，我需要走一段長路，浪費了較多時間，有可能延宕了我接著參觀的腳程，預測代價較大，使得未來所得樂趣的收益減少，於是我考慮是否改往二樓，這裡正舉行一個畫展，名畫很多，我預測可能得到很多樂趣，在這一刻的時點，我需要作出決策。決策的目的，當然是希望看到更多名畫所帶來的樂趣，結果，或選擇爬上二樓。這個例子的決策過程，牽涉把預測和決策能力結合，並以當下與未來收益作出綜合考量，以採取行動。把預測能力和決策能力結合起來，無疑是深度增強學習的核心。人工智能機遇與挑戰