WAAPS 2.0

Första versionen av BTAMs prediktionsmodell byggdes under våren/sommaren 2016 och blev färdigställd på flyget över till World Cup 2016 i Toronto. Nästan klyschigt men så var det. Den motorn har varit basen sedan över 5 säsonger nu och ja, det är ju dags att uppgradera oss. Modellen har såklart justerats över tid men parametrarna har varit ungefär desamma, endast modellerade på annat vis.

Tidigare har inparametrarna helt varit baserade på utfall och utgått från att det bästa laget vinner flest matcher. Nya approcahen är att använda det + statistik.

Nya inparametrar ->

  • Expected Goals framåt och bakåt.
  • Skottprocent
  • Räddningsprocent
  • Skott i skottsektorn framåt och bakåt
  • Fenwick

Tidigare modell har varit helt binär där lagen har jämförts mellan varandra.
Om Lag A och Lag B mötts så har laget som varit det bättre i en kategori fått en 1:a per kategori helt enkelt. En bra approach framförallt när datamängden är låg. Det svaga är att det slår väldigt då nyanserna blir rätt klara.(för) Få gråzoner. Algoritmerna som undertecknad jobbade med då käkade helt enkelt denna typ av dataset bäst i testerna. Typ av algoritm (Bayes, Logistik Regression eller Random Forest) har i stort sett kvittat då datat har varit modellerat på detta vis.

Exempel på binärt dataset

Området maskininlärning har gått framåt väldigt sista åren (eller framförallt beräkningskraften för BTAMs syfte) och den nya algoritmen är av modellen XGBoost hanterar mer komplex inmatning av data. Värdena har nu sina faktiska värden (standardiserade) för att få bästa mest homogena utfall.

Nya datasetet. (Brynäs – Leksand)

Så. Varför bry sig om detta? Det är kanske som grekiska för dig som läsare. Och ja, de behöver du inte. Men ett resultat kräver sina förklaringar.

Den tidigare modellen hade en AUC (area under curve) på 0,748 (av maximala 1,0) på träningsdatat som bäst under dessa 5 år. Den nya modellen börjar på 0,801.

Som exempel har vi kommande omgång mellan RBK och FHC.

Gamla Modellen
Nya modellen

Rögle har sett till den gamla modellen ett gynnsammare läge genom att varit det bättre laget över längre tid med utfall än FHC. Men tack vare den underliggande statistiken tycker den nya modellen att indianerna är den mer logiska vinnaren.

Om den faktiskt kommer vara bättre på verklig data? We will see. Kommer säkert vara en del barnsjukdomar som blir tydliga med tiden. Och, tack vare att den inte är testad mer än en vecka på verklig data så kommer jag släppa den till patronerna först. Den får rulla bakom betalvägg till dess att den är bevisad lagom mycket bättre än den gamla.

Här kommer ni till de första prediktionerna.