巴西奪冠可能性最大?牛津學者用統(tǒng)計模型預測世界杯比賽****
(來源:PLoS One)論文中指出,在該模型中,每個球隊的進球數都可以被換算成泊松概率分布。并且,通過該模型可以統(tǒng)計出球隊在比賽過程中的進球個數,其均值取決于球隊的進攻和防守能力。實際比賽的過程中,除了雙方的綜合實力,還受運氣等外在因素影響,因此結果具有不確定性??紤]到這點,在用“雙泊松”模型描述球隊水平時,會提前設置“進攻”與“防守脆弱性”指數。其中,“進攻”指數越高表示球隊進球越容易,“防守脆弱性”指數則相反,越高表示進球越難。在獲得“進攻”與“防御脆弱性”指數后就能算出“泊松概率分布”平均值。“雙泊松”模型中設定不同的球隊可以根據各自不同的“雙泊松”過程得分,并將 A 和 B 球隊的預期進球得分設定為 μ(A,B)。需要注意的是,統(tǒng)計模型在計算的過程中會將進球速度看做是恒定的,也不考慮進球的具體時間,只需要考慮進球數。此外,“泊松概率分布”的計算過程使用了“無記憶”假設,即一個進球不會影響比賽其余的進球數。這些通常是模型的潛在錯誤來源。圖 | 各國贏球概率預測(來源:Matthew Penn)同樣值得注意的是,在這個模型中,沒有對主客場比賽進行區(qū)分。也就是說,無論比賽在哪里進行,A 隊對 B 隊的預期進球數都將等于 μ(A,B)。這是一個簡化的假設,不僅減少了參數的數量,而且避免了小數據集的過度擬合。事實上,由于不同球隊之間的相關聯結果數量很少(其中許多球隊根本沒有進行過比賽),會根據情況減少模型中的參數數量。預估球隊分數接下來,在計算不同球隊預計進球數的過程中,模型默認球員都按照最理想的情況發(fā)揮?!邦A計進球數”等于 A 球隊的進攻指數乘以 B 球隊的防守脆弱性指數,在計算 B 球隊的進球數過程中也是如此。例如,A 球隊的進攻指數是 8,防守脆弱性指數是 0.4;B 球隊進攻指數是 10,防守脆弱性指數是 0.6,雙方的得分為 4.8:4(模型默認為 5:4)。但是,由于比賽過程中充滿不確定因素,A 隊 4.8 的進球數與 B 隊 0.6 的進球數都被當做平均泊松概率分布。所有比分的概率大小取決于兩個進球數概率值的乘積。A 和 B 球隊攻擊力和防守脆弱性指數都是根據球隊過去的表現與分數綜合地確定,需要不斷更新與調整,將預測的柏松概率分布數值與比賽中實際獲得的分數匹配。(來源:Pixabay)因此,在實際預測過程中,球隊可能出現的分數都會被預測出來,最后可以預估出奪冠的球隊。馬修·佩恩在牛津大學官網上表示:“雙柏松統(tǒng)計模型預測了一百萬次球賽,得出世界杯十六強晉級****及冠軍歸屬。根據預測結果,荷蘭、伊朗、阿根廷、丹麥、西班牙、克羅地亞、巴西等球隊會進入十六強。阿根廷進入四強,巴西將在四分之一決賽時淘汰西班牙?!?/span>
來源:麻省理工評論
*博客內容為網友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。