EXKLUZIVNĚ: Lze využít metriku xG k předpovídání fotbalových zápasů pro větší zisk? PŘEKLADY ODBORNÝCH ČLÁNKŮ

EXKLUZIVNĚ: Lze využít metriku xG k předpovídání fotbalových zápasů pro větší zisk?

17.08.2023 22:30

Přinášíme vám exkluzivní překlad odborného článku od sázkového analytika Josepha Buchdahla, který spravuje webové stránky www.football-data.co.uk, na kterém poskytuje historické výsledky, zápasové statistiky a údaje o kurzech. Je také autorem knih Fixed Odds Sports Betting: Statistical Forecasting & Risk Management (2003), How to Find a Black Cat in a Coal Cellar: The Truth about Sports Tipsters (2013) a Squares & Sharps, Suckers & Sharks: The Science, Psychology & Philosophy of Gambling (2016).

 

  • Pochopení očekávaných gólů
  • Využití xG k předpovídání fotbalových výsledků
  • Analýza Dixon-Colesova modelu

 

Statistika očekávaných gólů je oblíbeným nástrojem pro predikci. Mohou sázkaři využít očekávané góly pro určení přesného výsledku? Sázkový analytik Joseph Buchdahl zpracovává všechna potřebná data a zjišťuje, zda lze pomocí očekávaných gólů předpovídat fotbalové výsledky.

Ve sportovním sázení je, přinejmenším těm, kteří ho považují za víc než jen rekreační koníček, už dlouho znám pojem očekávání, konkrétně myšlenka očekávané hodnoty. Sázky jsou vítězné či prohrávající, ale většina toho, co se stane, je pouze důsledkem štěstí. Z dlouhodobého hlediska však znalost očekávané hodnoty umožňuje sázkaři odhadnout, jakou výhru může očekávat na větším vzorku sázek. „Očekávaná“ je pouze jiný výraz pro „aritmetický průměr“ nebo „průměr“.  

V poslední době si pojem očekávání našel cestu do fotbalu prostřednictvím pojmu zvaného očekávané góly či xG. Očekávané góly se využívají coby metrika pro hodnocení výkonnosti fotbalových týmů či hráčů skrze přiřazení pravděpodobnosti střelecké příležitosti, která může skončit gólem. Tato pravděpodobnost se vypočítává použitím historických dat pro podobné příležitosti a konverzního poměru vstřelené branky. Hodnota xG pro jednu gólovou příležitost se tedy bude pohybovat mezi 1 a 0. Sečtením xG během zápasu získáme xG pro samotný duel nebo xG pro oba týmy. 

xG poskytuje věrnější zobrazení kvality hry týmů v daném zápase. 

Teoreticky metrika xG vypovídá o kvalitě hry týmů v zápase a o převaze jednoho týmu nad druhým lépe než skutečný počet vstřelených gólů. Za vstřelením gólu stojí v přiměřené míře i štěstí (které statistici nazývají „šum“) a použití skutečného skóre k předpovědi toho, jak by mohl tým hrát v příštím zápase, může být méně spolehlivé než použití metriky xG.  

Góly jsou v jistém smyslu jako výhry a prohry v sázení, zatímco očekávané góly jsou jako očekávaná hodnota. Jestli je tomu skutečně tak, mohli bychom využít xG místo skutečného počtu gólů pro předpovídání výsledků ve fotbalových zápasech s cílem získat větší profit?

 

Góly versus xG

Matematik a autor knihy Soccermatics: Mathematical Adventures in the Beautiful Game David Sumpter poskytl určité vodítko k relativní užitečnosti gólů oproti xG při snaze předpovědět výsledek budoucích zápasů. Sumpter výstižně ilustruje obtížnost nalezení prognostického signálu z údajů o gólech.  

“Ze statistického hlediska je výsledek fotbalového utkání téměř stejným šumem jako signálem. Matematické vysvětlení tohoto faktu lze vyčíst přímo v Poissonově rozdělení. Góly ve fotbale jsou Poissonovsky rozdělené a týmy vstřelí v průměru 1,4 gólu na zápas. Rozptyl a průměr jsou v Poissonově rozdělení stejné. To znamená, že standardní odchylka je druhou odmocninou 1,4, což je 1,18. Tím pádem je šum (1,18) pouze lehce menší než signál (1,4).“  

xG je naproti tomu měřítkem vytvořených šancí, díky čemuž nabízí lepší zhodnocení kvality týmu během zápasu než góly. xG obvykle obsahuje méně šumu a více signálu. Pro obě hodnoty, góly i xG, platí, že množství šumu ve výsledcích zápasů klesá se zvyšujícím se počtem zkoumaných utkání. Míra poklesu je ale u xG zpočátku strmější než u gólů.  

Sumpter na základě této informace doporučuje, na jaká data bychom se měli zaměřit při snaze o předpovědi budoucích výsledků. Pro jeden či dva zápasy nám většinu užitečných informací poskytne samotný report o utkání. Na druhou stranu u vzorků s více než 15 zápasy či ještě lépe polovinou sezóny, budou data o gólech potenciálně stejně spolehlivá jako xG. Šum bude stále trochu vyšší, avšak rozdíl je malý. Góly navíc reprezentují realitu – to, co se skutečně stalo – zatímco xG je pravděpodobnostní model šancí ke skórování. Pokud je nepřesný, může se ukázat, že je méně spolehlivý než údaje o gólech. 

Mezi těmito extrémy se nachází zajímavá oblast pro využití xG coby prognostického nástroje. Sumpter tvrdí, že zpráva o xG bude nejužitečnější při třech až šesti hrách, zatímco u sedmi až 15 her lépe poslouží srovnání mezi góly a xG. Pro účely tohoto článku jsem sestavil předpoědní xG model, který pracuje s posledními 6 zápasy daného týmu, pro posouzení, zda se dá využít pro zajištění zisku ze sázení.

 

Dixon-Colesův model

Nejlépe zdokumentovaný přístup k předpovídání fotbalových zápasů byl publikován Markem Dixonem a Stuartem Colesem (z Lancaster University) v magazínu Journal of Applied Statistics v roce 1997. Jejich model se stal známým pod názvem Dixon-Colesův model a rozvíjí koncept síly útoku a obrany na základě porovnání počtu vstřelených a obdržených branek jednotlivých týmů s ligovým průměrem v rámci určitého počtu předchozích zápasů. 

Na jejich základě se následně odhaduje očekávaný počet vstřelených branek jednotlivých týmů v následujícím utkání. Nakonec je pro výpočet pravděpodobností jednotlivých gólů použito Poissonovo rozdělení, kdy je očekávaný počet gólů průměrem distribuce. 

V tomto článku jsem model upravil tak, aby používal xG místo vstřelených branek a sílu obrany i útoku vypočítal na základě posledních šesti domácích nebo venkovních zápasů. Do vzorku dat jsem zahrnul zápasy hrané v anglické, francouzské, německé, italské a španělské nejvyšší soutěži během sezón 2015/16 až 2019/20. 

Předpokládané pravděpodobnosti výhry domácích, remízy a výhry hostů byly převedeny na implikované spravedlivé kurzy a následně srovnány se závěrečnými kurzy Pinnaclu. Vyšší kurzy na Pinnaclu představují teoretickou hodnotu předpovědního modelu. Hodnotné sázky (value bety) poté byly srovnány s reálnými výsledky. 

Graf níže zobrazuje časovou řadu zisků ze 7 795 příležitostí s hodnotou identifikovaných modelem z celkového počtu 18 006. Zisk ze sázek za stejnou hodnotu (tzv. flat stakes) činil v porovnání s obratem -5,0 %. Pro srovnání: v případě, že by byla na každou z 18 006 příležitostí vsazena jedna jednotka, činila by ztráta -4,3 %. Vzhledem k tomu, že průměrná očekávaná hodnota pro tento vzorek byla 38,9 %, je říct, že se jedná pouze o nedostatečný výsledek, velmi mírné zhodnocení situace.

 

Potenciální neplatnost modelu

Možná první vodítko k neúspěchu tohoto modelu spočívá v samotném údaji o průměrné očekávané hodnotě. Při průměrném kurzu 4.69 by údaj s téměř 40% průměrnou očekávanou hodnotou ze sázek, které tvoří více než třetinu všech možných příležitostí, silně naznačoval obrovskou odchylku v implikovaných spravedlivých kurzech v porovnání se skutečnými kurzy společnosti Pinnacle.  

Korelační graf mezi předpovídanými hodnotami xG modelu a skutečnými hodnotami xG zaznamenanými pro předpovídaný zápas tuto domněnku potvrzuje. 

Je zde hodně šumu; modelované xG příliš dobrou práci při přesném odhadu skutečných xG daného týmu ve skutečném zápase nepředvádí. Určit zdroj selhání modelu by mohl být tvrdý oříšek, protože potenciálně existují nejméně čtyři problémy.

Zaprvé: použití Dixon-Colesova modelu pro předpovídání fotbalových zápasů může být ze své podstaty chybné. Poissonovo rozdělení, které je jeho základem, předpokládá, že vstřelené branky jsou na sobě nezávislé; to znamená, že jeden gól nezpůsobí, že padne jiný. To však ignoruje vliv psychiky jednotlivce i celého týmu. Týmy, které prohrávají, mohou mít větší motivaci, aby vyrovnaly, zatímco remizující týmy mohou být stejně motivovány k dalšímu tlaku. V takovém případě můžeme myšlenku, že góly padají náhodně, zpochybnit.

Sami Dixon a Coles uvádějí, že jejich předpovědní model podhodnotil výsledky s nízkým skóre (0:0, 1:0, 0:1 a 1:1). Abych potvrdil toto zjištění, seřadil jsem zvlášť jak modelem predikované xG, tak skutečná xG data konkrétních zápasů od nejnižší po nejvyšší hodnotu a zanesl je do grafu níže coby umělou korelaci (plná čára).  

Je zřejmé, že skutečných výsledků s nízkým xG je méně, než předpovídá můj model, zatímco výsledků s vysokým xG je více, než by mělo být (přerušovaná čára).

To, co Dixon a Coles zjistili o gólech, platí, zdá se i pro xG, což není úplně překvapivé zjištění vzhledem k tomu, že skutečné branky a xG při větším vzorku dat spolu dobře korelují. 

Druhým možným zdrojem chyby je samotný xG model. Z mého datového vzorku byla celková hodnota xG ve výši 97,8 % skutečně vstřelených branek v zápase. I když se to může zdát jako slušná shoda, je velmi těžké zjistit, zda je tento rozdíl dostačující k tomu, aby potvrdil validitu předpovědního xG modelu.

Třetím zdrojem chyby může být má volba počtu posledních zápasů použitých pro výpočet síly útoku a obrany podle Dixon-Colesova modelu. Z důvodů, které jsem popsal výše v článku, jsem zvolil šest zápasů. Možná by nižší či vyšší počet fungoval lépe. Takovou změnu by bylo poměrně snadné provést, ačkoli by to vyžadovalo kompletní přepracování modelu, a to zde dělat nebudu.  

Všech šest zápasů má navíc stejnou váhu. Dixon a Coles uznali, že aktuálnější zápasy by možná měli mít při výpočtu průměrné síly větší váhu, proto ji do pozdějších verzí svého modelu zavedli. Opět se jedná o funkci, kterou bych mohl namodelovat sám, ale vzhledem k časové náročnosti procesu to dělat nebudu.  

Existuje však ještě jeden, a dost možná nejzásadnější problém mého modelu, a to pokus o vygenerování zisku při tipování fotbalových zápasů. Když pomineme všechny ostatní možné zdroje chyb, ani dobrý xG model, samozřejmě mnohem lepší, než je ten můj, není schopen vygenerovat jiný než náhodný zisk, protože není tak dobrý jako model, který sázková kancelář používá k sestavení svých kurzů.  

Vzhledem k tomu, že je Dixon-Colesův model dobře zdokumentovaný a xG je v současnosti široce využívaná metrika, je možné, že všechny informace, které takový prognostický model přináší, jsou do kurzů sázkových kanceláří už dávno zakomponovány.  

 

Soutěž relativních dovedností

Kurzové sázení se podobá sportům samotným. Jde totiž o soutěž relativních dovedností mezi dvěma nebo více stranami, které soutěží o to, kdo bude lepší v předpovídání budoucnosti. Čím lepší prognostik je, tím spolehlivější a platnější je jeho odhad skutečných pravděpodobností výsledku (a tedy i kurzů). Chyby jsou trestány finanční ztrátou.   

Pinnacle s pravděpodobně nejlepší analýzou dat na trhu sázkových kanceláří má výjimečně spolehlivé předpovědní modely, které jsou mnohem lepší než ty mé. Zároveň víme, že i tak má Pinnacle zákazníky, kteří dosahují nejen náhodných profitů, i když jsem už dříve zmiňoval, jak vzácní takoví sázkaři jsou.  

Kdyby byl Pinnacle Aston Villa všech předpovědních modelů, tito úspěšní sázkaři by byli spíše jako Liverpool nebo Manchester City. Jasně, můžete mít dobrý model, třeba z druhé ligy, dost dobrý na to, abyste dělali slušné předpovědi, ale ne dost dobrý na to, aby překonal ty nejlepší modely. Můj model by se v tomto případě nedostal pravděpodobně ani do kraje.

xG může být užitečný zdroj pro sestavení předpovědního modelu

Pokud jde o to, zda lze xG efektivně využít k vydělávání peněz na fotbalových zápasech, věc se má takto: kurzy, které model pro predikci poskytuje, jsou odrazem kvality informací, které do něj vstupují. xG mohou skutečně představovat užitečný zdroj dat pro vytvoření modelu pro predikci, ale pokud už Pinnacle s těmito informacemi pracuje ve svém vlastním modelu, stejně jako s dalšími užitečnými daty, která, bohužel, nemám k dispozici, můj model není v žádném případě schopen porazit ten jejich. Veškeré informace, které má data xG přináší, jsou již do jejich kurzů zasazeny. Proti Aston Ville tak nastupuje Slavoj Houslice.   

Jestliže Pinnacle (a samozřejmě také ostatní sázkové kanceláře) už metriku xG ve svých předpovědních a kurzových modelech využívá, což je dost pravděpodobné vzhledem k tomu, jak dlouho jsou již tato data široce dostupná, je otázkou, zda moje použití těchto dat může zlepšit to, co už dělají.

Umožní mi tedy xG data profitovat na fotbalových trzích? Stejně jako u jakékoliv jiné analýzy dat pro sázkařské účely bude odpověď záviset na tom, jak je využijete. A to, jak je využijete, bude muset být lepší než způsob, jakým je využívají sázkové kanceláře.

 

Zdroj: Obrázky použity z původního článku dostupného na webu pinnacle.com.

 

Sdílet tento článek ve službě

avatar

O autorovi

David Řezníček

Sportovní nadšenec a vášnivý sázkař. Profesionálně se věnuje psaní článků pro weby ze sázkařského a casino prostředí.

Další zajímavé články od stejného autora

BONUSY

Kingsbet | Bonus za registraci

29.08.2024 12:00 Česká scéna se sázkovými kancelářemi nedávno přivítala další přírůstek. Obohatit se ji totiž rozhodla zkušená společnost King’s Entertainment prostřednictvím své sázkovky Kingsbet. I ona samozřejmě láká klienty na registrační bonus, a právě na ten se zaměříme v rámci našeho článku.   Registrační „free bet“ v hodnotě až 500 Kč Musíme uznat, že nabídka registračních bonusů v Kingsbet není vůbec špatná. Sám hráč si totiž může vybrat, zda sáhne po…

BONUSY

MerkurXtip bonusy - registrační bonus, AKO bonus a další

26.08.2024 12:00 Původem německá sázková kancelář a online casino MerkurXtip vtrhly na náš trh teprve v roce 2022. Už od jejich počátků jsou však známé pro své zajímavé bonusy, které se pravidelně mění a lákají zákazníky. Co od MerkurXtipu můžete získat i vy a jaké bonusy nejen pro kurzové sázení nabízí? To se dozvíte v našem článku.   Registrační bonus 50 free spinů + 200 Kč na první vklad Na první bonus v MerkurXtip samozřejmě narazíte už po registraci. Jako…

NÁVODY

Tipsport registrace | Návod krok za krokem

25.08.2024 10:00 Všichni jistě dobře víte, že pokud se chcete v Česku účastnit hazardní hry na internetu, musíte se u jejího poskytovatele nejdříve zaregistrovat. Tato povinnost je daná zákonem a nevyhnete se jí ani u pravděpodobně nejoblíbenější sázkovky – berounského Tipsportu. Jak se tedy zaregistrovat a co vše je k registraci potřeba.   Registrace na PC Nejspíše nejpohodlnějším a nejrychlejším způsobem, jak se na Tipsportu zaregistrovat, je za použití…

NÁVODY

SynotTip registrace | Jak se zaregistrovat na SynotTipu?

25.08.2024 09:15 SynotTip se řadí mezi ty nejznámější sázkové kanceláře u nás. Původem uherskohradišťská společnost si na trhu vybudovala velmi silné postavení a je také sponzorem několika sportovních týmů. Chcete-li si vyzkoušet, jak se u ní sází, budete se nejdříve muset zaregistrovat. A právě registraci na SynotTipu se věnuje náš článek níže. Čtěte dál a dozvíte se vše, co o ní potřebujete vědět.   Registrace na počítači Není pochyb o tom, že nejrychlejší a…

NÁVODY

Chance registrace | Jak na to?

25.08.2024 09:00 Pro mnohé z vás určitě není Chance žádnou neznámou. Aby taky byla, vždyť se řadí mezi vůbec nejstarší sázkové kanceláře v Česku. Pokud si v ní chcete vsadit i vy, musíte se samozřejmě nejdříve zaregistrovat. Jak na to a co všechno budete muset vykonat? Přesně to se dozvíte v našem článku níže.   Registrace z PC Za nás tím vůbec nejrychlejším a jednoznačně nejpohodlnějším způsobem registrace na Chanci je pomocí počítače. Na něm je totiž vše…

SportBreak - nejlepší profesionální sázkaři na jednom místě

Spojte se s jedničkami v oblasti sázkového poradenství! Na SportBreaku najdete komunitu těch nejlepších sázkařů z Česka i Slovenska. Nechte si poradit od skutečných profesionálů a začněte kurzovým sázením vydělávat. Stačí si vybrat z široké nabídky verifikovaných servisů a můžete začít.