“FINTECH - Reshaping the Future of Finance Services”

98 99 多變環境的明智決策看深一層，傳統決策過程，無疑也包含了一，觀察當前環境狀態；二，以此基礎採取行動；三，成本與收益衡量。只有瞭解三種因素後，才能作出決策行為。但傳統的決策方法，面對數量巨大的狀態和決策選擇，因為無法精准預測當前狀態，無法精准預測行動收益，往往難以勝任。在今日大數據時代，環境狀態特別多，決策選擇也多，譬如，在故宮參觀，於路線決策一刻，你向前走，還是向後走？向左走或向右走？是向上走或是往下走？除了決策選擇眾多，收益也難以估計。我走這一步，收益有多少，走另一步，收益又有多少？總言之，環境狀態多、決策選擇也多、收益難以準確衡量下，如何處理？很顯然，決策時刻，對於環境變化的預測能力便起關鍵的作用。深度學習精准的預測能力在此處便體現了巨大的優勢。將深度學習與增強學習兩者的優勢結合，這也是「深度增強學習」過人之處。無人車暢行其道深度學習和增強學習結合的濫觴，成功開端，可以說由 DeepMind 團隊，在 2013 年神經資訊處理系統大會 (Conference and Workshop on Neural Information Processing Systems，簡稱 NIPS) 上，發表 Playing Atari with Deep Reinforcement Learning 一文為標誌。該文其中位研究團隊成員 David Silver ──如今是谷歌 (Google) 旗下 DeepMind 團隊最出色的成員之一，也是 AlphaGo 的開發者，他強調，人工智能未來的發展大趨勢，就是深度學習與增強學習的結合。亦即 AI = DL+RL （Deep Learning+ Reinforcement Learning)。預測能力可以通過深度學習得以加強。雖然傳統的決策也可以根據觀察、行動和收益計算來進行，但在環境狀態多、決策選擇多和收益無法可靠衡量下，便難以有效勝任。然而，深度增強學習所取得對環境變化的精準預測，不僅提升了商業行為決策的能力，更重要是「智慧體」，如 AlphaGo、無人車以至機器人等，能夠發揮強大的預測和決策能力。譬如，無人車，透過攝像鏡頭來感知路面交通環境，從而根據每一次的觀察，作出決策，是停車、左轉、或右轉⋯。深度增強學習使人工智能發展，邁向一個更具應用潛力的新階段。 AlphaGo 如何擊敗柯潔技術的簡單表述是，「智慧體」按照當前的環境觀察，以確定下一步的行動(action)。每一次的環境觀察，是為「智慧體」所處的狀態(state)。因此，狀態和動作存在「映射關係」。簡單來說，就是一個「狀態」可以對應一個「行動」，或者對應不同動作的概率；而概率最高者，往往就是最值得執行的動作。用估值函數公式來表達，可以寫成－ Max Q(s, a)=current reward( 當前收益 )+ future reward( 未來收益 )。人工智能機遇與挑戰