“FINTECH - Reshaping the Future of Finance Services”

98 99 多變環境的明智決策 看深一層,傳統決策過程,無疑也包含了一,觀察當前環境狀態;二, 以此基礎採取行動;三,成本與收益衡量。只有瞭解三種因素後,才能 作出決策行為。但傳統的決策方法,面對數量巨大的狀態和決策選擇, 因為無法精准預測當前狀態,無法精准預測行動收益,往往難以勝任。 在今日大數據時代,環境狀態特別多,決策選擇也多,譬如,在故宮參 觀,於路線決策一刻,你向前走,還是向後走?向左走或向右走?是向 上走或是往下走?除了決策選擇眾多,收益也難以估計。我走這一步, 收益有多少,走另一步,收益又有多少? 總言之,環境狀態多、決策選擇也多、收益難以準確衡量下,如何處理? 很顯然,決策時刻,對於環境變化的預測能力便起關鍵的作用。深度學 習精准的預測能力在此處便體現了巨大的優勢。 將深度學習與增強學 習兩者的優勢結合,這也是「深度增強學習」過人之處。 無人車暢行其道 深度學習和增強學習結合的濫觴,成功開端,可以說由 DeepMind 團 隊,在 2013 年神經資訊處理系統大會 (Conference and Workshop on Neural Information Processing Systems,簡稱 NIPS) 上,發表 Playing Atari with Deep Reinforcement Learning 一文為標誌。該文其中位研 究團隊成員 David Silver ──如今是谷歌 (Google) 旗下 DeepMind 團 隊最出色的成員之一,也是 AlphaGo 的開發者,他強調,人工智能未 來的發展大趨勢,就是深度學習與增強學習的結合。亦即 AI = DL+RL (Deep Learning+ Reinforcement Learning)。 預測能力可以通過深度學習得以加強。雖然傳統的決策也可以根據觀 察、行動和收益計算來進行,但在環境狀態多、決策選擇多和收益無法 可靠衡量下,便難以有效勝任。然而,深度增強學習所取得對環境變化 的精準預測,不僅提升了商業行為決策的能力,更重要是「智慧體」, 如 AlphaGo、無人車以至機器人等,能夠發揮強大的預測和決策能力。 譬如,無人車,透過攝像鏡頭來感知路面交通環境,從而根據每一次的 觀察,作出決策,是停車、左轉、或右轉⋯。深度增強學習使人工智能 發展,邁向一個更具應用潛力的新階段。 AlphaGo 如何擊敗柯潔 技術的簡單表述是,「智慧體」按照當前的環境觀察,以確定下一步的 行動(action)。每一次的環境觀察,是為「智慧體」所處的狀態(state)。 因此,狀態和動作存在「映射關係」。簡單來說,就是一個「狀態」 可以對應一個「行動」,或者對應不同動作的概率;而概率最高者, 往往就是最值得執行的動作。用估值函數公式來表達,可以寫成 - Max Q(s, a)=current reward( 當前收益 )+ future reward( 未來收 益 )。 人工智能機遇與挑戰

RkJQdWJsaXNoZXIy MzUzMDg=