Vad baseras procenten på? Det är vanligaste frågan som jag får på twitter. Här kommer svaret. Maskininlärning.

Jag har varit inne på området och snubblat ett par gånger och ska här försöka göra förtydliganden. Idéen till ”Better Than a Monkey” föddes för att kunna reda ut vilka parametrar verkligen betyder något och vilka som inte gör det. Slå hål på klyschorna. Och med målet, som namnet antyder, förutse hockey på ett bättre sätt än vad en apa skulle göra (>50%).

För att inte göra detta för komplicerat så kommer vissa förenklingar att göras. En uppsats om algoritmen ur ett spelande perspektiv finns för den som vill fördjupa sig. Denna är framtagen tillsammans med forskare inom maskininlärning på Jönköping University. Hör av er på mejl eller twitter så löser vi den.

Grundinformationen till algoritmen WAAPS (Bet-M i uppsatsen då ”inte ens nobelprisvinnare döper sina metoder efter sig själva”. Jaja.) är alla matcher i SHL sedan 2010. Ur denna urvinns information och generas upp i en databas. Datat modelleras på ett sådant sätt att vi t.ex. kan se


– vilken form ett lag har
– hur bra det är/har varit över tid (PowerRank)
– hur bra motståndarna var vid matchens tillfälle
– offensiv/defensiv kraft
– Hur lagen har spelat mot varandra tidigare

Grundparametrar man ofta talar i när man ska förutse vem som ska vinna en match helt enkelt.

Lagen jämförs sedan mot varandra på olika nivåer likt, ”Vilket lag är bäst?” ”Hur mycket bättre är lag A?” osv. Totalt ställs lagen mot varandra på detta sätt i 47 frågor (kallas Feature Engineering i ML-världen).

Här ifrån är det ”magin” skapas. Genom att lägga på en självtränande algoritm så tränar den fram vilka faktorer som är viktigast. Genom att testa sig om och om igen så når det och skapar sedan upp en formel som framtida matchers data körs igenom för att få fram sannolikheterna.

Genom träningen av modellen får vi en ”score” på hur väl algoritmen som tränats fram kan prestera på historisk data.


Lite nyckeltal ur grafen. Accuracy är träffsäkerheten på när 1=1 och 2=2. Lite motsägelsefullt är 2 (bortaseger) ”Positiv label” i min modell. Vi ser ovan att modellen idag har 805 ”True Positve” och 444 ”False Positive”. Detta innebär att det har blivit bortaseger, på historisk data, i 805 av de 1249 (805+444) fallen som modellen trodde på (64,5%). Hemmasegrar har fallit in på 1371 av 1945 (70,5%). Totalt landar då Accuracyn på 68,1%.

Detta innebär att vi förväntar oss att framåt, såvida inte förutsättningarna förändras tror vi på en träffsäkerhet på 68,1%. Vilket på samma sätt innebär att vi tror att vi kommer ha fel på 31,9% av framtida matcher.

Detta var ett försök på att inte göra det för tekniskt men har du frågor om modellen i stort eller maskininlärning så dra gärna ett mejl på erik.wilderoth@gmail.com eller kontakta mig på twitter.

Statistikskolan. Del 2.
Läsarbetyg 4 Röster