“FINTECH - Reshaping the Future of Finance Services”

212 213 為何眾多調查機構收集到那麼巨量數據，但分析的答案，竟然大錯特錯，令人費解，關鍵顯然在於所採集的數據本身帶有傾向性，譬如，有些受訪對象沒有把心目中的投票對象說出來，因而所以呈現出來的答案也變得失實。值得強調的是，數據採集過程中，所收集的數據並非隨機抽選出來。過去的調查，往往通過隨機抽樣方式，以電話「人對人」的方式進行。但如今很多都是透過互聯網收集，以非隨機的方式進行。一些帶有傾向性的人或組織樂於以這種方式參與和提供訊息，結果便可能形成帶有傾向性的民意。一旦數據帶有傾向性，分析結果難免與現實不相符。對於帶有傾向性數據所導致的錯誤結果，有學者曾進行研究，發現由於數據傾向性的「偏見」(bias)，即使採集到 230 萬條相關數據，還不如一個通過隨機抽樣，樣本數目只有 400 的調查來得有效。換言之，雖然數據量十分龐大，但非隨機性抽樣，使數據本身的「偏見」更容易在調查中呈現出來，得出了「誤導性」結果。另有研究指出，通過大數據協助作出的決策，這個決策不一定更好或更準確，反而只會增強對決策結果的信心。賽馬評磅員實驗的啟示 1974 年，著名心理學家保羅 ‧ 斯洛維奇 (Paul Slovic) 和 2002 年諾貝爾經濟學獎得主丹尼爾 ‧ 卡尼曼 (Daniel Kahneman) 作了一項關於信息決策的「實驗」。二人召集了 8 位賽馬專業評磅員 (Horse handicappers)，告訴他們，想知道誰人能夠預測到賽事中那一匹馬跑勝出，表現最佳。「實驗」之目的，在於探究信息如何影響決策。這 8 名賽馬評磅員專門評估馬匹的勝算，並初步定出賠率，在比賽中實在是關鍵性人物。斯洛維奇教授告訴他們，對連續四輪包括 40 場賽事進行頭馬預測。在第一輪中，斯洛維奇教授給予評磅員每一匹馬 5 條信息，譬如，馬匹的騎師有多少年賽馬經驗等；第二輪，給了每名評磅員 10 條信息；第三輪 20 條；第四輪 40 條。實驗結果發現，評磅員預測的準確率，並沒有隨著信息量增加而上升，反而是增加對自己預測結果的信心。在這種情況下，評磅員相信，取得更多信息有助作出更好決策，故不斷強化自己對決策的信心。在賭博賽事中，若自己對預測結果有強烈的勝出信心，自然會下重注，後果當然會輸更多錢。研究結果不僅有趣，而且更顯示出，信息與決策的準確性沒有必然關係。大數據應用範圍有局限看深一層，大數據還有一個很值得一說的缺漏，就是數據本身只能夠告訴我們數據產生過程中的規律。亦即是說，只能告訴我們在數據本身範圍內的規律。這是什麼意思呢？假設，數據是人面識別的數據，若數據本身只含有白人的人面識別，一旦用來識別白人以外的人種，譬如黑人或黃種人，識別的準確性便大大降低。幾年前，有學者研究，谷歌和亞馬遜應用的人面識別算法技術，識別黑人的準確性特別差勁。即使算法本不帶有傾向性，但由於識別算法的數據輸入，若只包含白人，在識別黑人時，算法的準確性便大打折扣。目前，大數據很多應用到醫療保健上，譬如基因的數據，以位於美國加州山景城的 23andMe 基因技術公司為例，該公司逾百份之九十的基因大數據的應用與不足