EXKLUZIVNĚ: Lze využít metriku xG k předpovídání fotbalových zápasů pro větší zisk?
17.08.2023 22:30
Přinášíme vám exkluzivní překlad odborného článku od sázkového analytika Josepha Buchdahla, který spravuje webové stránky www.football-data.co.uk, na kterém poskytuje historické výsledky, zápasové statistiky a údaje o kurzech. Je také autorem knih Fixed Odds Sports Betting: Statistical Forecasting & Risk Management (2003), How to Find a Black Cat in a Coal Cellar: The Truth about Sports Tipsters (2013) a Squares & Sharps, Suckers & Sharks: The Science, Psychology & Philosophy of Gambling (2016).
- Pochopení očekávaných gólů
- Využití xG k předpovídání fotbalových výsledků
- Analýza Dixon-Colesova modelu
Statistika očekávaných gólů je oblíbeným nástrojem pro predikci. Mohou sázkaři využít očekávané góly pro určení přesného výsledku? Sázkový analytik Joseph Buchdahl zpracovává všechna potřebná data a zjišťuje, zda lze pomocí očekávaných gólů předpovídat fotbalové výsledky.
Ve sportovním sázení je, přinejmenším těm, kteří ho považují za víc než jen rekreační koníček, už dlouho znám pojem očekávání, konkrétně myšlenka očekávané hodnoty. Sázky jsou vítězné či prohrávající, ale většina toho, co se stane, je pouze důsledkem štěstí. Z dlouhodobého hlediska však znalost očekávané hodnoty umožňuje sázkaři odhadnout, jakou výhru může očekávat na větším vzorku sázek. „Očekávaná“ je pouze jiný výraz pro „aritmetický průměr“ nebo „průměr“.
V poslední době si pojem očekávání našel cestu do fotbalu prostřednictvím pojmu zvaného očekávané góly či xG. Očekávané góly se využívají coby metrika pro hodnocení výkonnosti fotbalových týmů či hráčů skrze přiřazení pravděpodobnosti střelecké příležitosti, která může skončit gólem. Tato pravděpodobnost se vypočítává použitím historických dat pro podobné příležitosti a konverzního poměru vstřelené branky. Hodnota xG pro jednu gólovou příležitost se tedy bude pohybovat mezi 1 a 0. Sečtením xG během zápasu získáme xG pro samotný duel nebo xG pro oba týmy.
xG poskytuje věrnější zobrazení kvality hry týmů v daném zápase.
Teoreticky metrika xG vypovídá o kvalitě hry týmů v zápase a o převaze jednoho týmu nad druhým lépe než skutečný počet vstřelených gólů. Za vstřelením gólu stojí v přiměřené míře i štěstí (které statistici nazývají „šum“) a použití skutečného skóre k předpovědi toho, jak by mohl tým hrát v příštím zápase, může být méně spolehlivé než použití metriky xG.
Góly jsou v jistém smyslu jako výhry a prohry v sázení, zatímco očekávané góly jsou jako očekávaná hodnota. Jestli je tomu skutečně tak, mohli bychom využít xG místo skutečného počtu gólů pro předpovídání výsledků ve fotbalových zápasech s cílem získat větší profit?
Góly versus xG
Matematik a autor knihy Soccermatics: Mathematical Adventures in the Beautiful Game David Sumpter poskytl určité vodítko k relativní užitečnosti gólů oproti xG při snaze předpovědět výsledek budoucích zápasů. Sumpter výstižně ilustruje obtížnost nalezení prognostického signálu z údajů o gólech.
“Ze statistického hlediska je výsledek fotbalového utkání téměř stejným šumem jako signálem. Matematické vysvětlení tohoto faktu lze vyčíst přímo v Poissonově rozdělení. Góly ve fotbale jsou Poissonovsky rozdělené a týmy vstřelí v průměru 1,4 gólu na zápas. Rozptyl a průměr jsou v Poissonově rozdělení stejné. To znamená, že standardní odchylka je druhou odmocninou 1,4, což je 1,18. Tím pádem je šum (1,18) pouze lehce menší než signál (1,4).“
xG je naproti tomu měřítkem vytvořených šancí, díky čemuž nabízí lepší zhodnocení kvality týmu během zápasu než góly. xG obvykle obsahuje méně šumu a více signálu. Pro obě hodnoty, góly i xG, platí, že množství šumu ve výsledcích zápasů klesá se zvyšujícím se počtem zkoumaných utkání. Míra poklesu je ale u xG zpočátku strmější než u gólů.
Sumpter na základě této informace doporučuje, na jaká data bychom se měli zaměřit při snaze o předpovědi budoucích výsledků. Pro jeden či dva zápasy nám většinu užitečných informací poskytne samotný report o utkání. Na druhou stranu u vzorků s více než 15 zápasy či ještě lépe polovinou sezóny, budou data o gólech potenciálně stejně spolehlivá jako xG. Šum bude stále trochu vyšší, avšak rozdíl je malý. Góly navíc reprezentují realitu – to, co se skutečně stalo – zatímco xG je pravděpodobnostní model šancí ke skórování. Pokud je nepřesný, může se ukázat, že je méně spolehlivý než údaje o gólech.
Mezi těmito extrémy se nachází zajímavá oblast pro využití xG coby prognostického nástroje. Sumpter tvrdí, že zpráva o xG bude nejužitečnější při třech až šesti hrách, zatímco u sedmi až 15 her lépe poslouží srovnání mezi góly a xG. Pro účely tohoto článku jsem sestavil předpoědní xG model, který pracuje s posledními 6 zápasy daného týmu, pro posouzení, zda se dá využít pro zajištění zisku ze sázení.
Dixon-Colesův model
Nejlépe zdokumentovaný přístup k předpovídání fotbalových zápasů byl publikován Markem Dixonem a Stuartem Colesem (z Lancaster University) v magazínu Journal of Applied Statistics v roce 1997. Jejich model se stal známým pod názvem Dixon-Colesův model a rozvíjí koncept síly útoku a obrany na základě porovnání počtu vstřelených a obdržených branek jednotlivých týmů s ligovým průměrem v rámci určitého počtu předchozích zápasů.
Na jejich základě se následně odhaduje očekávaný počet vstřelených branek jednotlivých týmů v následujícím utkání. Nakonec je pro výpočet pravděpodobností jednotlivých gólů použito Poissonovo rozdělení, kdy je očekávaný počet gólů průměrem distribuce.
V tomto článku jsem model upravil tak, aby používal xG místo vstřelených branek a sílu obrany i útoku vypočítal na základě posledních šesti domácích nebo venkovních zápasů. Do vzorku dat jsem zahrnul zápasy hrané v anglické, francouzské, německé, italské a španělské nejvyšší soutěži během sezón 2015/16 až 2019/20.
Předpokládané pravděpodobnosti výhry domácích, remízy a výhry hostů byly převedeny na implikované spravedlivé kurzy a následně srovnány se závěrečnými kurzy Pinnaclu. Vyšší kurzy na Pinnaclu představují teoretickou hodnotu předpovědního modelu. Hodnotné sázky (value bety) poté byly srovnány s reálnými výsledky.
Graf níže zobrazuje časovou řadu zisků ze 7 795 příležitostí s hodnotou identifikovaných modelem z celkového počtu 18 006. Zisk ze sázek za stejnou hodnotu (tzv. flat stakes) činil v porovnání s obratem -5,0 %. Pro srovnání: v případě, že by byla na každou z 18 006 příležitostí vsazena jedna jednotka, činila by ztráta -4,3 %. Vzhledem k tomu, že průměrná očekávaná hodnota pro tento vzorek byla 38,9 %, je říct, že se jedná pouze o nedostatečný výsledek, velmi mírné zhodnocení situace.
Potenciální neplatnost modelu
Možná první vodítko k neúspěchu tohoto modelu spočívá v samotném údaji o průměrné očekávané hodnotě. Při průměrném kurzu 4.69 by údaj s téměř 40% průměrnou očekávanou hodnotou ze sázek, které tvoří více než třetinu všech možných příležitostí, silně naznačoval obrovskou odchylku v implikovaných spravedlivých kurzech v porovnání se skutečnými kurzy společnosti Pinnacle.
Korelační graf mezi předpovídanými hodnotami xG modelu a skutečnými hodnotami xG zaznamenanými pro předpovídaný zápas tuto domněnku potvrzuje.
Je zde hodně šumu; modelované xG příliš dobrou práci při přesném odhadu skutečných xG daného týmu ve skutečném zápase nepředvádí. Určit zdroj selhání modelu by mohl být tvrdý oříšek, protože potenciálně existují nejméně čtyři problémy.
Zaprvé: použití Dixon-Colesova modelu pro předpovídání fotbalových zápasů může být ze své podstaty chybné. Poissonovo rozdělení, které je jeho základem, předpokládá, že vstřelené branky jsou na sobě nezávislé; to znamená, že jeden gól nezpůsobí, že padne jiný. To však ignoruje vliv psychiky jednotlivce i celého týmu. Týmy, které prohrávají, mohou mít větší motivaci, aby vyrovnaly, zatímco remizující týmy mohou být stejně motivovány k dalšímu tlaku. V takovém případě můžeme myšlenku, že góly padají náhodně, zpochybnit.
Sami Dixon a Coles uvádějí, že jejich předpovědní model podhodnotil výsledky s nízkým skóre (0:0, 1:0, 0:1 a 1:1). Abych potvrdil toto zjištění, seřadil jsem zvlášť jak modelem predikované xG, tak skutečná xG data konkrétních zápasů od nejnižší po nejvyšší hodnotu a zanesl je do grafu níže coby umělou korelaci (plná čára).
Je zřejmé, že skutečných výsledků s nízkým xG je méně, než předpovídá můj model, zatímco výsledků s vysokým xG je více, než by mělo být (přerušovaná čára).
To, co Dixon a Coles zjistili o gólech, platí, zdá se i pro xG, což není úplně překvapivé zjištění vzhledem k tomu, že skutečné branky a xG při větším vzorku dat spolu dobře korelují.
Druhým možným zdrojem chyby je samotný xG model. Z mého datového vzorku byla celková hodnota xG ve výši 97,8 % skutečně vstřelených branek v zápase. I když se to může zdát jako slušná shoda, je velmi těžké zjistit, zda je tento rozdíl dostačující k tomu, aby potvrdil validitu předpovědního xG modelu.
Třetím zdrojem chyby může být má volba počtu posledních zápasů použitých pro výpočet síly útoku a obrany podle Dixon-Colesova modelu. Z důvodů, které jsem popsal výše v článku, jsem zvolil šest zápasů. Možná by nižší či vyšší počet fungoval lépe. Takovou změnu by bylo poměrně snadné provést, ačkoli by to vyžadovalo kompletní přepracování modelu, a to zde dělat nebudu.
Všech šest zápasů má navíc stejnou váhu. Dixon a Coles uznali, že aktuálnější zápasy by možná měli mít při výpočtu průměrné síly větší váhu, proto ji do pozdějších verzí svého modelu zavedli. Opět se jedná o funkci, kterou bych mohl namodelovat sám, ale vzhledem k časové náročnosti procesu to dělat nebudu.
Existuje však ještě jeden, a dost možná nejzásadnější problém mého modelu, a to pokus o vygenerování zisku při tipování fotbalových zápasů. Když pomineme všechny ostatní možné zdroje chyb, ani dobrý xG model, samozřejmě mnohem lepší, než je ten můj, není schopen vygenerovat jiný než náhodný zisk, protože není tak dobrý jako model, který sázková kancelář používá k sestavení svých kurzů.
Vzhledem k tomu, že je Dixon-Colesův model dobře zdokumentovaný a xG je v současnosti široce využívaná metrika, je možné, že všechny informace, které takový prognostický model přináší, jsou do kurzů sázkových kanceláří už dávno zakomponovány.
Soutěž relativních dovedností
Kurzové sázení se podobá sportům samotným. Jde totiž o soutěž relativních dovedností mezi dvěma nebo více stranami, které soutěží o to, kdo bude lepší v předpovídání budoucnosti. Čím lepší prognostik je, tím spolehlivější a platnější je jeho odhad skutečných pravděpodobností výsledku (a tedy i kurzů). Chyby jsou trestány finanční ztrátou.
Pinnacle s pravděpodobně nejlepší analýzou dat na trhu sázkových kanceláří má výjimečně spolehlivé předpovědní modely, které jsou mnohem lepší než ty mé. Zároveň víme, že i tak má Pinnacle zákazníky, kteří dosahují nejen náhodných profitů, i když jsem už dříve zmiňoval, jak vzácní takoví sázkaři jsou.
Kdyby byl Pinnacle Aston Villa všech předpovědních modelů, tito úspěšní sázkaři by byli spíše jako Liverpool nebo Manchester City. Jasně, můžete mít dobrý model, třeba z druhé ligy, dost dobrý na to, abyste dělali slušné předpovědi, ale ne dost dobrý na to, aby překonal ty nejlepší modely. Můj model by se v tomto případě nedostal pravděpodobně ani do kraje.
xG může být užitečný zdroj pro sestavení předpovědního modelu
Pokud jde o to, zda lze xG efektivně využít k vydělávání peněz na fotbalových zápasech, věc se má takto: kurzy, které model pro predikci poskytuje, jsou odrazem kvality informací, které do něj vstupují. xG mohou skutečně představovat užitečný zdroj dat pro vytvoření modelu pro predikci, ale pokud už Pinnacle s těmito informacemi pracuje ve svém vlastním modelu, stejně jako s dalšími užitečnými daty, která, bohužel, nemám k dispozici, můj model není v žádném případě schopen porazit ten jejich. Veškeré informace, které má data xG přináší, jsou již do jejich kurzů zasazeny. Proti Aston Ville tak nastupuje Slavoj Houslice.
Jestliže Pinnacle (a samozřejmě také ostatní sázkové kanceláře) už metriku xG ve svých předpovědních a kurzových modelech využívá, což je dost pravděpodobné vzhledem k tomu, jak dlouho jsou již tato data široce dostupná, je otázkou, zda moje použití těchto dat může zlepšit to, co už dělají.
Umožní mi tedy xG data profitovat na fotbalových trzích? Stejně jako u jakékoliv jiné analýzy dat pro sázkařské účely bude odpověď záviset na tom, jak je využijete. A to, jak je využijete, bude muset být lepší než způsob, jakým je využívají sázkové kanceláře.
Zdroj: Obrázky použity z původního článku dostupného na webu pinnacle.com.
Další zajímavé články od stejného autora
Betano – registrační bonus 500 Kč a další doplňkové bonusy
29.07.2024 12:00 Společnost Betano přišla na český trh teprve v roce 2022. Už tehdy však byla v zahraničí oceněná coby jedna z nejlepších sázkových kanceláří a rychle si tak našla své klienty i u nás. Vděčí tomu nejen pestré kurzové nabídce, ale rozhodně i zajímavým bonusům které na hráče čekají. Pojďte se s námi podívat, co si pro nové klienty Betano připravilo. Betano nabízí 500 Kč do hry za registraci Registrační bonusy jsou mezi hráči nesmírně oblíbené a…
EXKLUZIVNĚ: Data stojící za udělováním karet ve fotbale: Co vzít v úvahu před sezónou 2023/2024
22.07.2024 21:30 Přinášíme vám exkluzivní překlad odborného článek od Andrewa Beasleyho, jehož profesní kariéra se sice posunula od studia médií k práci v bance, ale jeho skutečnou vášní byl vždy fotbal. Poté, co pozoroval, jak se v jeho milovaném sportu rozšířila data, rychle se tomuto trendu přizpůsobil a nyní se věnuje analýze fotbalových statistik. Jakou roli hraje v rozhodování VAR? Využití statistik společnosti Opta k analýze udělování karet Diskuse,…
Kingsbet | Nová sázková kancelář
22.07.2024 10:00 Na našem trhu se nachází celá řada známých sázkovek, mezi kterými nechybí jména jako Tipsport, Betano či Fortuna. V roce 2024 však na trh vstoupilo další zajímavá sázková kancelář Kingsbet, která má rozhodně také co nabídnou. Pojďte se společně s námi podívat, co všechno vám nabízí. O Kingsbet Možná už vás hra na klasických sázkových kancelářích nudí a chcete si vyzkoušet nějakou tu novinku. Pak pro vás může být Kingsbet zcela ideálním…
Fortuna | Věrnostní body
15.07.2024 12:00 Mnoho českých sázkových kanceláří nabízí pro své pravidelné hráče zajímavou formu odměn prostřednictvím věrnostních bodů. Výjimkou není ani velmi oblíbená Fortuna, který tento systém na své platformě rovněž nabízí. Pojďte se společně s námi dozvědět, jak věrnostní body Fortuny fungují. Co jsou to věrnostní body na Fortuně? Věrnostní body od Fortuny jsou způsob, prostřednictvím kterého Fortuna odměňuje sázející, jež hrají prostřednictvím její…
Fortuna – registrační bonus 300 Kč
11.07.2024 12:00 Sázková kancelář Fortuna je nejstarší sázkovou kanceláří na českém trhu. Působí na něm už od roku 1991 a od té doby si stačila vybudovat velmi silnou hráčskou základnu. Ta se neustále rozrůstá nejen díky široké kurzové nabídce, ale také početným bonusům. Nejzajímavější pro hráče je jistě bonus za registraci, který na Fortuně činí rovných 300 Kč. Pojďte se s námi o něm dozvědět více. Bonus 300 Kč za registraci u Fortuny Registrační bonusy…