“FINTECH - Reshaping the Future of Finance Services”

212 213 為何眾多調查機構收集到那麼巨量數據,但分析的答案,竟然大錯特 錯,令人費解,關鍵顯然在於所採集的數據本身帶有傾向性,譬如,有 些受訪對象沒有把心目中的投票對象說出來,因而所以呈現出來的答案 也變得失實。值得強調的是,數據採集過程中,所收集的數據並非隨機 抽選出來。過去的調查,往往通過隨機抽樣方式,以電話「人對人」的 方式進行。但如今很多都是透過互聯網收集,以非隨機的方式進行。一 些帶有傾向性的人或組織樂於以這種方式參與和提供訊息,結果便可能 形成帶有傾向性的民意。一旦數據帶有傾向性,分析結果難免與現實不 相符。 對於帶有傾向性數據所導致的錯誤結果,有學者曾進行研究,發現由於 數據傾向性的「偏見」(bias),即使採集到 230 萬條相關數據,還不如 一個通過隨機抽樣,樣本數目只有 400 的調查來得有效。換言之,雖然 數據量十分龐大,但非隨機性抽樣,使數據本身的「偏見」更容易在調 查中呈現出來,得出了「誤導性」結果。 另有研究指出,通過大數據協助作出的決策,這個決策不一定更好或更 準確,反而只會增強對決策結果的信心。 賽馬評磅員實驗的啟示 1974 年,著名心理學家保羅 ‧ 斯洛維奇 (Paul Slovic) 和 2002 年諾 貝爾經濟學獎得主丹尼爾 ‧ 卡尼曼 (Daniel Kahneman) 作了一項關 於信息決策的「實驗」。二人召集了 8 位賽馬專業評磅員 (Horse handicappers),告訴他們,想知道誰人能夠預測到賽事中那一匹馬跑 勝出,表現最佳。「實驗」之目的,在於探究信息如何影響決策。 這 8 名賽馬評磅員專門評估馬匹的勝算,並初步定出賠率,在比賽中實 在是關鍵性人物。斯洛維奇教授告訴他們,對連續四輪包括 40 場賽事 進行頭馬預測。在第一輪中,斯洛維奇教授給予評磅員每一匹馬 5 條信 息,譬如,馬匹的騎師有多少年賽馬經驗等;第二輪,給了每名評磅員 10 條信息;第三輪 20 條;第四輪 40 條。實驗結果發現,評磅員預測 的準確率,並沒有隨著信息量增加而上升,反而是增加對自己預測結果 的信心。在這種情況下,評磅員相信,取得更多信息有助作出更好決策, 故不斷強化自己對決策的信心。在賭博賽事中,若自己對預測結果有強 烈的勝出信心,自然會下重注,後果當然會輸更多錢。研究結果不僅有 趣,而且更顯示出,信息與決策的準確性沒有必然關係。 大數據應用範圍有局限 看深一層,大數據還有一個很值得一說的缺漏,就是數據本身只能夠告 訴我們數據產生過程中的規律。亦即是說,只能告訴我們在數據本身範 圍內的規律。這是什麼意思呢?假設,數據是人面識別的數據,若數據 本身只含有白人的人面識別,一旦用來識別白人以外的人種,譬如黑人 或黃種人,識別的準確性便大大降低。 幾年前,有學者研究,谷歌和亞馬遜應用的人面識別算法技術,識別黑 人的準確性特別差勁。即使算法本不帶有傾向性,但由於識別算法的數 據輸入,若只包含白人,在識別黑人時,算法的準確性便大打折扣。 目前,大數據很多應用到醫療保健上,譬如基因的數據,以位於美國加 州山景城的 23andMe 基因技術公司為例,該公司逾百份之九十的基因 大數據的應用與不足

RkJQdWJsaXNoZXIy MzUzMDg=