
近日 BuzzFeed 與 BBC 一起通過利用算法,對2009 到2015年的26000 場ATP 與大滿貫頂級男子網球賽進行了分析,經過長達15 個月的艱苦調查後,他們得出了涉嫌打假球的場次和球員名單。不過文章並未披露具體球員名字,但是一個比較重磅的消息是其中有一位是排名前50 的男選手,目前正在澳網打比賽。
Templon 首先跟體育博彩的調查員建立起一個測量指標—賽前賠率變化超過10 個百分點的賽事。然後對每位球員進行了100 萬次的模擬運算來評估選手打假球的置信度。最後在26000 場比賽中找到了39 位嫌疑人,其中有15 位選手往往在下重註的比賽當中經常會輸掉。有一位選手在16 場下了重註的比賽中輸了15 場。
儘管這種模式的匹配並不能證明球員打假球,但是正常情況下,每每有人下重註押某位球員會輸時他總是會表現不佳的可能性也是非常低的。 Templon 稱根據他的仿真結果,按照博彩公司最初開出的賠率,這名選手預期會輸掉比賽的機率應該不會超過1/7500。文章並沒有透露選手名字,但稱涉嫌打假球的球員是排名前50 的選手之一,目前還正在澳網公開賽打比賽。
BBC 播出這篇名為“網壇騙局” 文章的調查方法、原始數據以及算法程序,其分析步驟大概是這樣的:
1、數據獲取。從7 家博彩公司下載2009年至2015年9月間26000 場ATP、大滿貫比賽的開盤賠率和收盤賠率。
2、數據準備。準備比賽賠率數據集,內容包括每家博彩公司為每場比賽開出的賠率,比賽雙方選手、比賽結果、賠率變化情況等。其中還根據賠率情況計算了每位選手的獲勝機率,即對方賠率/(對方賠率+ 選手賠率)。
3、賽事排除。將取消的比賽、開盤賠率高於或低於所有博彩公司賠率中位數10%的賠率排除在外,共剩下25993 場比賽。
4、賠率變化計算。計算開盤和收盤賠率變化情況,如果選手A 開盤胜率為65%,收盤卻變成50%,則賠率變化為15 個百分點。
5、選手選擇。選出賠率變化超過 10%的選手。 10%這個數據是跟博彩公司調查員討論後定下來的,超過這個數後博彩公司一般都會對賽事進行嚴格調查。然後再選出輸掉超過10 場這樣賠率變化大的比賽的選手。最後發現有 39 名選手符合上述條件。
6、仿真。這一步用來估計每位選手比賽的結果的不可能程度。利用開盤時每位選手的獲勝機率來生成一連串的結果。每位選手要進行 100 萬次模擬運算。
7、顯著性檢驗。然後對每位選手的結果進行顯著性檢驗。最後發現有4 位選手打假球的置信度達到95%。另11 位選手儘管沒到達這種置信度,但輸球的機率仍然低於5%。
數據無疑可以幫助調查人員很多事情,尤其是利用算法對數據進行大規模分析在新聞組織中屬於很罕見的例子。但是光靠數據科學家或者分析師來做調查是會存在巨大風險的,記者本人也需要對數據嫻熟,對了解事實嚴格要求。這種技術的配合應該是讓新聞故事符合事實,而不是拼湊出數據來配合故事。
而這次的大數據還只是利用了賠率分析,隨著人工智能技術的發展和賽事轉播記錄的豐富,將來每一位球員的一舉一動、表情神態可能都會被記錄下來,運用大數據和人工智能進行動作分析、微表情分析,那時候數據能說明的東西也許會更多。
Simon Tech News http://simontech.net



