“FINTECH - Reshaping the Future of Finance Services”

100 101 估值函數中，s 為狀態 (state），a 為行動 (action)。換言之，由觀察狀態到採取行動的過程，也就是策略選擇的決策。智慧體會選擇採取行動 a，使得在當前狀態 s 下的收益最大化。很顯然「深度增強學習」，就是如何在多變環境中，取得最好的決策收益結果。 AlphaGo 在圍棋對弈中，棋逢敵手。關鍵是，在當前棋盤的狀態下，如何走下一步棋，蘊含對每一步棋的落子預測，對每一步棋落子的收益估值，AlphaGo 通過計算機數據演算法，對環境變化 ( 棋局 ) 作出精準預測，往往取得更高勝算，令柯潔三度飲恨，含淚甘拜下風。商業應用前景遼濶谷歌運用了 DeepMind 的深度增強學習技術，毋須改變機房設計，只需靠軟體動態調整，就使得冷卻設備整體耗電減少 40％的成效。在谷歌的資料中心，最大的耗電量，是進行冷卻降溫，因為谷歌一個資料中心，動輒有上萬台伺服器，產生大量的熱能，為了讓伺服器持續正常運作，必須靠冷卻裝置來降溫。然而，這些冷卻設備多是大型的機電設備，像是抽風機、冷水機和冷卻塔等。但如此複雜和高度變動環境中，很難準確地操作這些機電設備來降溫。DeepMind 的深度增強學習，精準找出設備與機房環境狀態的對應關係，令耗電量明顯下降。可以看到，深度增強學習除了讓「智慧體」，包括機器人、無人車等能夠因應外部狀態變化而作出智能行動外，在商業領域的應用，無論是應用範圍和應用前景，都非常廣泛。當然，人工智能也有其局限性，例如，需要大量數據支援，更重要一點是，人工智能的技術，雖然在預測能力上近年有所精進，但目前在對「反饋值」，亦即收益的估值中並不是那麼精確。因此，即使人工智能在當前取得飛躍進步，但始終不能視之為解決所有問題的「萬靈藥」，而我們應以「實事求是」的態度，來直視和促進這項技術的未來發展，為人類社會服務，也為商業領域作出更具效率和收益的決策行為。人工智能機遇與挑戰