EXKLUZIVNĚ: Lze využít metriku xG k předpovídání fotbalových zápasů pro větší zisk?
17.08.2023 22:30
Přinášíme vám exkluzivní překlad odborného článku od sázkového analytika Josepha Buchdahla, který spravuje webové stránky www.football-data.co.uk, na kterém poskytuje historické výsledky, zápasové statistiky a údaje o kurzech. Je také autorem knih Fixed Odds Sports Betting: Statistical Forecasting & Risk Management (2003), How to Find a Black Cat in a Coal Cellar: The Truth about Sports Tipsters (2013) a Squares & Sharps, Suckers & Sharks: The Science, Psychology & Philosophy of Gambling (2016).
- Pochopení očekávaných gólů
- Využití xG k předpovídání fotbalových výsledků
- Analýza Dixon-Colesova modelu
Statistika očekávaných gólů je oblíbeným nástrojem pro predikci. Mohou sázkaři využít očekávané góly pro určení přesného výsledku? Sázkový analytik Joseph Buchdahl zpracovává všechna potřebná data a zjišťuje, zda lze pomocí očekávaných gólů předpovídat fotbalové výsledky.
Ve sportovním sázení je, přinejmenším těm, kteří ho považují za víc než jen rekreační koníček, už dlouho znám pojem očekávání, konkrétně myšlenka očekávané hodnoty. Sázky jsou vítězné či prohrávající, ale většina toho, co se stane, je pouze důsledkem štěstí. Z dlouhodobého hlediska však znalost očekávané hodnoty umožňuje sázkaři odhadnout, jakou výhru může očekávat na větším vzorku sázek. „Očekávaná“ je pouze jiný výraz pro „aritmetický průměr“ nebo „průměr“.
V poslední době si pojem očekávání našel cestu do fotbalu prostřednictvím pojmu zvaného očekávané góly či xG. Očekávané góly se využívají coby metrika pro hodnocení výkonnosti fotbalových týmů či hráčů skrze přiřazení pravděpodobnosti střelecké příležitosti, která může skončit gólem. Tato pravděpodobnost se vypočítává použitím historických dat pro podobné příležitosti a konverzního poměru vstřelené branky. Hodnota xG pro jednu gólovou příležitost se tedy bude pohybovat mezi 1 a 0. Sečtením xG během zápasu získáme xG pro samotný duel nebo xG pro oba týmy.
xG poskytuje věrnější zobrazení kvality hry týmů v daném zápase.
Teoreticky metrika xG vypovídá o kvalitě hry týmů v zápase a o převaze jednoho týmu nad druhým lépe než skutečný počet vstřelených gólů. Za vstřelením gólu stojí v přiměřené míře i štěstí (které statistici nazývají „šum“) a použití skutečného skóre k předpovědi toho, jak by mohl tým hrát v příštím zápase, může být méně spolehlivé než použití metriky xG.
Góly jsou v jistém smyslu jako výhry a prohry v sázení, zatímco očekávané góly jsou jako očekávaná hodnota. Jestli je tomu skutečně tak, mohli bychom využít xG místo skutečného počtu gólů pro předpovídání výsledků ve fotbalových zápasech s cílem získat větší profit?
Góly versus xG
Matematik a autor knihy Soccermatics: Mathematical Adventures in the Beautiful Game David Sumpter poskytl určité vodítko k relativní užitečnosti gólů oproti xG při snaze předpovědět výsledek budoucích zápasů. Sumpter výstižně ilustruje obtížnost nalezení prognostického signálu z údajů o gólech.
“Ze statistického hlediska je výsledek fotbalového utkání téměř stejným šumem jako signálem. Matematické vysvětlení tohoto faktu lze vyčíst přímo v Poissonově rozdělení. Góly ve fotbale jsou Poissonovsky rozdělené a týmy vstřelí v průměru 1,4 gólu na zápas. Rozptyl a průměr jsou v Poissonově rozdělení stejné. To znamená, že standardní odchylka je druhou odmocninou 1,4, což je 1,18. Tím pádem je šum (1,18) pouze lehce menší než signál (1,4).“
xG je naproti tomu měřítkem vytvořených šancí, díky čemuž nabízí lepší zhodnocení kvality týmu během zápasu než góly. xG obvykle obsahuje méně šumu a více signálu. Pro obě hodnoty, góly i xG, platí, že množství šumu ve výsledcích zápasů klesá se zvyšujícím se počtem zkoumaných utkání. Míra poklesu je ale u xG zpočátku strmější než u gólů.
Sumpter na základě této informace doporučuje, na jaká data bychom se měli zaměřit při snaze o předpovědi budoucích výsledků. Pro jeden či dva zápasy nám většinu užitečných informací poskytne samotný report o utkání. Na druhou stranu u vzorků s více než 15 zápasy či ještě lépe polovinou sezóny, budou data o gólech potenciálně stejně spolehlivá jako xG. Šum bude stále trochu vyšší, avšak rozdíl je malý. Góly navíc reprezentují realitu – to, co se skutečně stalo – zatímco xG je pravděpodobnostní model šancí ke skórování. Pokud je nepřesný, může se ukázat, že je méně spolehlivý než údaje o gólech.
Mezi těmito extrémy se nachází zajímavá oblast pro využití xG coby prognostického nástroje. Sumpter tvrdí, že zpráva o xG bude nejužitečnější při třech až šesti hrách, zatímco u sedmi až 15 her lépe poslouží srovnání mezi góly a xG. Pro účely tohoto článku jsem sestavil předpoědní xG model, který pracuje s posledními 6 zápasy daného týmu, pro posouzení, zda se dá využít pro zajištění zisku ze sázení.
Dixon-Colesův model
Nejlépe zdokumentovaný přístup k předpovídání fotbalových zápasů byl publikován Markem Dixonem a Stuartem Colesem (z Lancaster University) v magazínu Journal of Applied Statistics v roce 1997. Jejich model se stal známým pod názvem Dixon-Colesův model a rozvíjí koncept síly útoku a obrany na základě porovnání počtu vstřelených a obdržených branek jednotlivých týmů s ligovým průměrem v rámci určitého počtu předchozích zápasů.
Na jejich základě se následně odhaduje očekávaný počet vstřelených branek jednotlivých týmů v následujícím utkání. Nakonec je pro výpočet pravděpodobností jednotlivých gólů použito Poissonovo rozdělení, kdy je očekávaný počet gólů průměrem distribuce.
V tomto článku jsem model upravil tak, aby používal xG místo vstřelených branek a sílu obrany i útoku vypočítal na základě posledních šesti domácích nebo venkovních zápasů. Do vzorku dat jsem zahrnul zápasy hrané v anglické, francouzské, německé, italské a španělské nejvyšší soutěži během sezón 2015/16 až 2019/20.
Předpokládané pravděpodobnosti výhry domácích, remízy a výhry hostů byly převedeny na implikované spravedlivé kurzy a následně srovnány se závěrečnými kurzy Pinnaclu. Vyšší kurzy na Pinnaclu představují teoretickou hodnotu předpovědního modelu. Hodnotné sázky (value bety) poté byly srovnány s reálnými výsledky.
Graf níže zobrazuje časovou řadu zisků ze 7 795 příležitostí s hodnotou identifikovaných modelem z celkového počtu 18 006. Zisk ze sázek za stejnou hodnotu (tzv. flat stakes) činil v porovnání s obratem -5,0 %. Pro srovnání: v případě, že by byla na každou z 18 006 příležitostí vsazena jedna jednotka, činila by ztráta -4,3 %. Vzhledem k tomu, že průměrná očekávaná hodnota pro tento vzorek byla 38,9 %, je říct, že se jedná pouze o nedostatečný výsledek, velmi mírné zhodnocení situace.
Potenciální neplatnost modelu
Možná první vodítko k neúspěchu tohoto modelu spočívá v samotném údaji o průměrné očekávané hodnotě. Při průměrném kurzu 4.69 by údaj s téměř 40% průměrnou očekávanou hodnotou ze sázek, které tvoří více než třetinu všech možných příležitostí, silně naznačoval obrovskou odchylku v implikovaných spravedlivých kurzech v porovnání se skutečnými kurzy společnosti Pinnacle.
Korelační graf mezi předpovídanými hodnotami xG modelu a skutečnými hodnotami xG zaznamenanými pro předpovídaný zápas tuto domněnku potvrzuje.
Je zde hodně šumu; modelované xG příliš dobrou práci při přesném odhadu skutečných xG daného týmu ve skutečném zápase nepředvádí. Určit zdroj selhání modelu by mohl být tvrdý oříšek, protože potenciálně existují nejméně čtyři problémy.
Zaprvé: použití Dixon-Colesova modelu pro předpovídání fotbalových zápasů může být ze své podstaty chybné. Poissonovo rozdělení, které je jeho základem, předpokládá, že vstřelené branky jsou na sobě nezávislé; to znamená, že jeden gól nezpůsobí, že padne jiný. To však ignoruje vliv psychiky jednotlivce i celého týmu. Týmy, které prohrávají, mohou mít větší motivaci, aby vyrovnaly, zatímco remizující týmy mohou být stejně motivovány k dalšímu tlaku. V takovém případě můžeme myšlenku, že góly padají náhodně, zpochybnit.
Sami Dixon a Coles uvádějí, že jejich předpovědní model podhodnotil výsledky s nízkým skóre (0:0, 1:0, 0:1 a 1:1). Abych potvrdil toto zjištění, seřadil jsem zvlášť jak modelem predikované xG, tak skutečná xG data konkrétních zápasů od nejnižší po nejvyšší hodnotu a zanesl je do grafu níže coby umělou korelaci (plná čára).
Je zřejmé, že skutečných výsledků s nízkým xG je méně, než předpovídá můj model, zatímco výsledků s vysokým xG je více, než by mělo být (přerušovaná čára).
To, co Dixon a Coles zjistili o gólech, platí, zdá se i pro xG, což není úplně překvapivé zjištění vzhledem k tomu, že skutečné branky a xG při větším vzorku dat spolu dobře korelují.
Druhým možným zdrojem chyby je samotný xG model. Z mého datového vzorku byla celková hodnota xG ve výši 97,8 % skutečně vstřelených branek v zápase. I když se to může zdát jako slušná shoda, je velmi těžké zjistit, zda je tento rozdíl dostačující k tomu, aby potvrdil validitu předpovědního xG modelu.
Třetím zdrojem chyby může být má volba počtu posledních zápasů použitých pro výpočet síly útoku a obrany podle Dixon-Colesova modelu. Z důvodů, které jsem popsal výše v článku, jsem zvolil šest zápasů. Možná by nižší či vyšší počet fungoval lépe. Takovou změnu by bylo poměrně snadné provést, ačkoli by to vyžadovalo kompletní přepracování modelu, a to zde dělat nebudu.
Všech šest zápasů má navíc stejnou váhu. Dixon a Coles uznali, že aktuálnější zápasy by možná měli mít při výpočtu průměrné síly větší váhu, proto ji do pozdějších verzí svého modelu zavedli. Opět se jedná o funkci, kterou bych mohl namodelovat sám, ale vzhledem k časové náročnosti procesu to dělat nebudu.
Existuje však ještě jeden, a dost možná nejzásadnější problém mého modelu, a to pokus o vygenerování zisku při tipování fotbalových zápasů. Když pomineme všechny ostatní možné zdroje chyb, ani dobrý xG model, samozřejmě mnohem lepší, než je ten můj, není schopen vygenerovat jiný než náhodný zisk, protože není tak dobrý jako model, který sázková kancelář používá k sestavení svých kurzů.
Vzhledem k tomu, že je Dixon-Colesův model dobře zdokumentovaný a xG je v současnosti široce využívaná metrika, je možné, že všechny informace, které takový prognostický model přináší, jsou do kurzů sázkových kanceláří už dávno zakomponovány.
Soutěž relativních dovedností
Kurzové sázení se podobá sportům samotným. Jde totiž o soutěž relativních dovedností mezi dvěma nebo více stranami, které soutěží o to, kdo bude lepší v předpovídání budoucnosti. Čím lepší prognostik je, tím spolehlivější a platnější je jeho odhad skutečných pravděpodobností výsledku (a tedy i kurzů). Chyby jsou trestány finanční ztrátou.
Pinnacle s pravděpodobně nejlepší analýzou dat na trhu sázkových kanceláří má výjimečně spolehlivé předpovědní modely, které jsou mnohem lepší než ty mé. Zároveň víme, že i tak má Pinnacle zákazníky, kteří dosahují nejen náhodných profitů, i když jsem už dříve zmiňoval, jak vzácní takoví sázkaři jsou.
Kdyby byl Pinnacle Aston Villa všech předpovědních modelů, tito úspěšní sázkaři by byli spíše jako Liverpool nebo Manchester City. Jasně, můžete mít dobrý model, třeba z druhé ligy, dost dobrý na to, abyste dělali slušné předpovědi, ale ne dost dobrý na to, aby překonal ty nejlepší modely. Můj model by se v tomto případě nedostal pravděpodobně ani do kraje.
xG může být užitečný zdroj pro sestavení předpovědního modelu
Pokud jde o to, zda lze xG efektivně využít k vydělávání peněz na fotbalových zápasech, věc se má takto: kurzy, které model pro predikci poskytuje, jsou odrazem kvality informací, které do něj vstupují. xG mohou skutečně představovat užitečný zdroj dat pro vytvoření modelu pro predikci, ale pokud už Pinnacle s těmito informacemi pracuje ve svém vlastním modelu, stejně jako s dalšími užitečnými daty, která, bohužel, nemám k dispozici, můj model není v žádném případě schopen porazit ten jejich. Veškeré informace, které má data xG přináší, jsou již do jejich kurzů zasazeny. Proti Aston Ville tak nastupuje Slavoj Houslice.
Jestliže Pinnacle (a samozřejmě také ostatní sázkové kanceláře) už metriku xG ve svých předpovědních a kurzových modelech využívá, což je dost pravděpodobné vzhledem k tomu, jak dlouho jsou již tato data široce dostupná, je otázkou, zda moje použití těchto dat může zlepšit to, co už dělají.
Umožní mi tedy xG data profitovat na fotbalových trzích? Stejně jako u jakékoliv jiné analýzy dat pro sázkařské účely bude odpověď záviset na tom, jak je využijete. A to, jak je využijete, bude muset být lepší než způsob, jakým je využívají sázkové kanceláře.
Zdroj: Obrázky použity z původního článku dostupného na webu pinnacle.com.
Další zajímavé články od stejného autora
Fortuna přihlášení | Jak na to?
10.06.2024 12:00 Jistě už dobře víte, že pokud chcete sázet na své favority, musíte mít u některé ze sázkových kanceláří účet. Bez něj to zkrátka nepůjde. Jakmile ho máte, můžete se do něj přihlásit, a právě poté získáte přístup ke všemu, co daná sázková kancelář nabízí. V našem článku se zaměříme na tu nejstarší u nás – sázkovou kancelář Fortuna. Pojďte s námi zjistit, jak se do Fortuny můžete přihlásit na pár kliknutí. Jak se přihlásit do svého Fortuna účtu…
Fortuna podpora – jak ji kontaktovat a s čím vám pomůže?
30.05.2024 12:00 Na internetu vás může potkat řada technických nepříjemností. To samozřejmě neplatí jen o běžném surfování, ale také u oblíbených sázkových kanceláří, jako je Fortuna. Na všechny nepříjemnosti je však Fortuna připravená díky své propracované zákaznické podpoře. Jak ji kontaktovat a co všechno s ní lze vyřešit se dozvíte v našem článku. Kontakty na zákaznickou podporu Fortuny Bez fungující zákaznické podpory by to dnes ve světě sázkových…
Jak vybrat peníze z MerkurXtip?
27.05.2024 12:00 Ruku na srdce. Nikdo od sázení neočekává nic jiného než výhry. Právě pro ten pocit většina z nás sází a je tím, co od sázení očekáváme. Ještě, než vám však peníze ze zeleného tiketu dorazí na bankovní účet, musíte si zažádat o jejich výplatu. To samozřejmě platí u sázkové kanceláře MerkurXtip a my vám v článku ukážeme, jak při jejich výplatě postupovat. Možnosti výběru V poslední době si mnoho hráčů vzniklo, že sázkové kanceláře nabízejí mnoho…
SazkaBet Maraton | Každý měsíc hra o zajímavé ceny
27.05.2024 12:00 Společnost Sazka je nejdéle působícím poskytovatelem hazardních her na našem trhu. Za dobu své existence si již prošla mnohými změnami, mezi které patří mimo jiné také spuštění populární sázkové kanceláře SazkaBet. Tam se můžete účastnit mnoha zajímavých soutěží, mezi kterými můžete každý měsíc objevit také oblíbený SazkaBet maraton. O co vlastně jde a na co se v něm můžete těšit? Zajímavé ceny každý měsíc SazkaBet Maraton patří k dlouhodobým…
AKO bonus na Betanu pro ještě vyšší výhry
27.05.2024 12:00 Každý sázkař ví, že přidáváním více příležitostí na tiket se snižuje pravděpodobnost jeho výhry. Pokud vám ale vyšší riziko nevadí a rádi vytváříte tikety plné různých příležitostí, Betano vám dává možnost vyhrát dokonce ještě více. Přináší vám totiž velmi povedený AKO bonus pro ještě vyšší kurzy u těch nejoblíbenějších soutěží. Pojďte se s námi podívat, jak funguje v praxi a jak ho můžete využít i vy. Až 70 % navýšení výher Jste příznivcem…