Form som “predictor”?

Publicerade i veckan en graf över SHLs för dagen formstarkaste lags resa genom säsongen. Ibland går det upp och ibland går det ner. Det som åker upp kommer så småningom ner. Och när vi spelar så anser vi ju att form är viktigt. Är ett lag i bra form? Ja då är det rimligt att de vinner nästa match också. Eller? Hur är det egentligen, ett lag som har vunnit fyra raka matcher, är det rimligt att tro att den kommer vinna den 5:e också?

HV71’s form under säsongen. Lindom fick inte sparken i början utan i slutet av November.

Vi vänder oss till data och börjar med enkel matematik. Vi förutsätter att alla lag är lika bra och att det inte finns några andra aspekter än att en match är som att singla slant. Hur stor är sannolikheten att ett lag vinner 5 raka matcher då?

Ja det är ju 50/50 i alla matcher vilket leder till

50% chans att vinna 1
25% chans att vinna 2 raka
12,5% att vinna 3
6,25% att vinna 4
3,125% att vinna 5 raka

Detta är ju sannolikhetslära i sin enklaste form, vilken vi alla fått lära oss i grundskolan. Så hur ser det ut i SHL sista 8 åren? Vi inleder med att ta alla lag i våra beräkningar. Det finns 6198 datapunkter att gå igenom (3099 matcher).
Av de vinner förstås ett lag varje match.
Så vi inleder på samma siffra som matematiken har lärt oss.
50% chans att vinna 1
av dessa vann sedan 1572 match 2. Vilket är 25,4%
Av de 1572 som vann match 2 vann 801 match 3. 12,9%
Av de 801 som vann match 3 vann 404 match 4. 6,5%.
Av de 404 som vann match 4 vann 191 match 5. 3,082%.

Vi får ett resultat som är otroligt likt våra grundläggande matematiska kunskapers utfall. Förluststreakar är dock något mer förkommande. Se tabell nedan.

Antal matcher i radMatematiskt utfallUtfall vinstraderUtfall förlustrader
150%50%50%
225%25,4%25,1%
312,5%12,9%13,2%
46,25%6,52%7,20%
53,13%3,08%4,08%
61,56%1,45%2,36%
70,78%0,73%1,44%
80,39%0,32%0,94%
90,20%0,16%0,63%
100,098%0,097%0,436%

Titta noga på sista raden i tabellen. Enligt matematiken är det 0,098% chans att ett lag vinner 10 raka matcher. 0,097% har gjort det. 0,001% felmarginal.
Logik i kubik och helt fantastiskt samtidigt.

Men så här kan vi ju inte ha det. Vi delar upp lagen efter 3 grupper i stället.*
25% Bästa lagen Grupp 1.
25%-75% Mittenlagen Grupp 2
25% Sämsta lagen Grupp 3

Hur mycket mer sannolikt är det att ett lag ur Grupp 1 når 5 raka segrar än ett lag i Grupp 3?

Antal matcher i radMatematiskt utfallUtfall vinstrader Grupp 1Utfall vinstrader Grupp 2Utfall vinstrader Grupp 3
150%61%52%35%
225%35,4%26,24%12,73%
312,5%19,7%13,3%4,72%
46,25%10,72%6,5%1,94%
53,13%5,54%2,81%0,90%
61,56%3,01%1,15%0,32%
70,78%1,71%0,51%0,06%
80,39%1,00%0,10%0%
90,20%0,59%0%0%
100,098%0,354%0%0%

Sannolikheten att ett lag vinner 5 raka matcher är låg. Däremot skiljer sig den mellan grupperna. Såklart. Men om vi tittar på hur många som tar sig “vidare” för varje match så blir det mer intressant. Se grafen nedan. De bättre lagens (Grupp 1 och 2) vinstchans minskar för varje omgång. Medan de sämre lagens faktiskt ökar för varje omgång. (Nu ska vi komma ihåg att antalet datapunkter på “dåliga lag” som faktiskt vunnit 5 raka matcher är väldigt lågt, 14 st på 1548 försök).

Kommer ni ihåg Arsenals galna säsong i Premier League i början på 2000-talet när de gick obesegrade genom hela säsongen? Stora diskussion då var om de kommer närmre en förlust för varje vinst eller inte? Meningarna gick förstås isär. Men se vad som händer för bra lag (Grupp 1) i SHL efter 5 matcher. Vinstchansen minskar inte längre och vid 10 vinster i rad så är vinna normalläge, dvs. Vinstchansen är densamma som vid första matchen i streaken. *

Vad kan vi dra för slutsatser av detta sifferinferno?

  1. Snittet för SHL är identiskt med det vi fått lära oss i skolan. Gör vi inte skillnad på lag och lag så får vi en väldigt generell modell. Tänk på det nästa gång är t ex C More berättar att det är 25% chans att ett lag vänder en slutspelsserie baserat på historik. Detta är ett generellt tal. Är det inte ett generellt lag vi pratar om stämmer inte siffran.
  2. Endast 6 lag har vunnit 10 matcher i rad. Alla var topp 25% när de inledde streaken.
  3. Form är ett väldigt svagt sätt att förutse hur nästa match ska gå. Ett bra lag har något större chans att vinna nästa match än att förlora den. Alla lag som inte är topp 25% kommer faktiskt närmre en förlust för varje vinst.

*Gruppindelningen sker baserat på lagens PowerRank.
*Vinstchanserna är dock generella i denna modell. Ingen hemma/borta-justering eller motståndsjusterad. Alla motståndare behandlas lika. Komplexiteten/tid sätter stopp för en sådan artikel.

Founder. Writer. Data Scientist. The Monkey beater.

Hockeyn är på ingång vilket innebär att även BetterThanAMonkey varvas igång igen. Denna gång på en högre växel. Fokuset kommer som vanligt att ligga på vinstsannolikhetern och i mån av tid artiklar. Tyvärr är det där med tid en ond faktor. 

Till det positiva, 2018-2019 kommer Better Than A Monkey även leverera sannolikheter för världens bästa ishockeyliga, NHL. Jag har under ett år jobbat med algoritmen/modellen för just NHL till och från. Problemet har varit att få det automatiserat till en sådan nivå att jag helt enkelt ska hinna med. 

Så vad är skillnaden på NHL och SHL? NHL är svårare att predicera. Inget snack om det. Finns flertalet andra sajter som levererar vinstsannolikheter till NHL. Flertalet med fler parametrar än WAAPS (eller BET-M som den heter i min vetenskapliga artikel*) men med vad jag kan se lägre accuracy. 

Så vad är målet? Better Than a Monkey? Nej. Better Than the rest. WAAPS ska vara världens bästa modell för att förutse ishockey. 

Historiskt sett ser det rimlig ut. Det bästa med data är att vi faktiskt kommer veta det om 10 månader. 

Så. BetterThanaMonkey fokuserar främst på att leverera sannolikheter för kommande säsong. NHL. SHL. Ett bettingprojekt kommer även att publiceras för att visa på WAAPS förträfflighet.

*Mer om artikeln och bettingprojektet kommande vecka.

Founder. Writer. Data Scientist. The Monkey beater.

[Artikeln skriven innnan FBK – MIK]

Två veckor hockey är spelat, vilket innebär 34 matcher. Vad kan vi se för tecken av dessa matcher?

Vi kan börja med algoritmen som producerat strax under(65%) vad vi ska förvänta oss(68%) . Positivt är att det inte varit under 50% någon gång hittills. Efter fem pmgångar (som vi nu är uppe på-ish) så ökar intelligensen på WAAPS då mönster går att se tydligare. “Full fart” ska den vara uppe på vid 15 omgångar. Så med det i åtanke är 65% en bra siffra.

Idag presenteras även första Power Rank-förändringarna från säsongsinledningen. I och med att vi är fem omgångar in är förändringarna ganska väntad,e om vi jämför med tabellen. Största förloraren hittills är Brynäs och i andra riktningen ser vi topplagen Växjö och HV. Förbättrade eller inte går ju att fundera kring, HV som är svenska mästare och Växjö vann grundserien ifjol, men detta är förstås ett resultat av att regression mot medeltalet genomförts. (Växjö landade på högst Power Rank även i fjol, då de spurtade in på 641).

PositionTeamPower RankWeek ChangeSeason ChangeSeason Change %
1VLH61116437.5
2FBK590196312.0
3HV71555-230.5
4FHC550-2-9-1.6
5SAIK537-240.7
6LHC528-3-31-5.5
7BIF521-2-31-5.6
8 ↑DIF5012357.5
9 ↓MIF492-13-6-1.2
10LHF447-2-16-3.4
11 ↑OHK44316256.0
12 ↓KHK426-18-31-6.7
13 ↓MIK410-17-32-7.2
14RBK3865-23-5.5

På spelarfronten ska vi som sagt ta hjälp av GVT här på Better Than a Monkey, för att få hjälp att läsa av hur spelarna presterar.

Högst GVT har hittills HV71s nya back Topi Jaakola som inte varit inne på ett enda mål bakåt. Som det syns i grafen nedan så hamnar hela HVs backuppssättning högt då de tillskrivs en del av Linus Söderströms fina siffror. Offensivt dominerar Joakim Lindström i vanlig ordning, tätt följd av Djurgårdens nya duo, Enqvist och Bourque.

En intressant iakttagelse är hur många skott lagen släpper till per match i spel “lika många på banan”. Frölunda är tätast av samtliga då de på sina fyra matcher endast släppt till 16 skott per match. Ett lag som Karlskrona, som släpper till flest i ligan, ligger strax över 30 skott per match!

Frölunda har släppt in 3 per match i snitt, Karlskrona 1,5. Där har ni svaret på varför inga Frölunda-spelare syns till i toppskiktet (släpper till få skott = bra, släpper in många av de få som kommer fram = dåligt). Nu spelar förstås Frölundas 7 mål i baken mot Färjestad in stort här, så räkna med att killar som Dahlin och Nörstebö kommer klättra mot toppen här allt eftersom säsongen går.

Vill ni själva kolla alla spelare finns det under “Player Stats”.

Founder. Writer. Data Scientist. The Monkey beater.

Dags för första omgången av SHL och därmed även säsongens första prediktioner från Better Than a Monkey och WAAPS. Vissa förändringar har skett med modellen sen säsongen slutade föregående säsong och fler ändringar kommer att komma under säsongen.

Vad som har förändrats.
Regression mot medelvärdet appliceras på säsongsstarterna. Det vill säga att varje lag måste bevisa sig när en ny säsong startar och kan inte leva på föregående säsong. Rimligt eller hur? Ett exempel på hur det fungerar ->
HV71 avslutade grundserien med en Power Rank på 609 och efter slutspelet var de uppe så pass högt som ~800. Medelvärdet för en Power Rank under säsongen 2016/2017 var 496. Därmed så regresseras deras Power Rank så att de börjar på 552,2 genom den enkla formeln (609+496)/2.
På samma sätt blir det för ett lag som hamnade under medelvärdet för en Power Rank, låt oss säga Rögle som slutade på 321. WAAPS förutsätter att de är bättre nu och regresserar upp värdet till 408,5 ((321+496)/2). Varje lag alltså bevisar sig därmed på nytt för varje säsong.
Den Power Ranken viktas sedan bort allt eftersom säsongen går enligt

(Antalet Spelade matcher Nuvarande Säsong/Totalt antalet grundserieomgångar) * Denna säsongs Power Rank + (1-(Antalet Spelade matcher Nuvarande Säsong/Totalt antalet grundserieomgångar)) * Inledande Power Rank

Ganska Straight Forward, eller hur?
Årets inledande Power Rank.

PositionTeamPower Rank
1VLH568
2FHC559
3LHC559
4HV71552,5
5BIF552
6 SAIK533,5
7FBK527
8MIF498
9LHF462,5
10DIF466
11KHK456,5
12MIK442
13ÖHK418
14RBK408,5

Som ni ser så hamnar inte Mora sist trots att de är nykomlingar. Eftersom det är oerhört svårt att bedöma skillnaden mellan divisionerna och hur skillnaden skiljer sig mellan säsongerna så bedöms alltid en nykomling till en början som en snittnykomling på alla sätt. Detta viktas alltså bort allt eftersom säsongen går med samma formel som ovan.

Så, här har vi årets första prognos. Form är ju som bekant en viktig del för WAAPS och den vets det ju som bekant inte mycket om inför en omgång ett så samtliga lag bedöms lika där. Så parametrarna som första prognosen till stor del bygger på är Power Rank, Hemma/Bortastyrka och tidigare möten mellan föreningarna.

Here we go.

Prognos uppdaterad 2017-09-14 20:05

H
Vinstchans
B
✔ HV7157,8%42,2%DIF
✔ LHF57,8%42,2%ÖHK
✔ MIF56,9%43,1%RBK
✔ FHC55,8%44,2%MIK
✔ VLH54,2%45,8%BIF
✔ FBK51,5%48,5%LHC
KHK43,3%56,7%SAIK ✔

Kommande förändringar tar vi allt eftersom de kommer.

Founder. Writer. Data Scientist. The Monkey beater.

Att analysera hur bra en modell egentligen är, är inte helt enkelt för gemene man och någonstans handlar det, som konsument av en modell, om ifall man helt enkelt tycker att den är bra eller inte. Som det mesta här i livet. Men här pratar vi hockey. Vad är acceptabelt? Fjolårsmålet under debutsäsongen för WAAPS var, som hemsidenamnet skvallrar om, att vara bättre än 50%. Det kan vi konstatera att det har WAAPS lyckats med. 66.5% landade tillslut modellen på för all historisk data (~68% på säsongen 16/17).

Men vad är bra? Finns det ett bra nog? Sommarprojektet för Better Than a Monkey har varit just att försöka reda ut vad som är bra nog. För att göra detta så har internet scannats efter liknande projekt. På SHL-nivå kan jag fortfarande inte finna något projekt som är publikt, så för att finna något som har med hockey att göra så vändes blicken mot Nord Amerika och NHL. Fyra modeller fann jag varav två idag är aktiva sajter medan två av dem har skapats i mer av forskningssyfte inom ämnet.

SajtACC%Länk
Moneypuck~57%http://moneypuck.com/about.htm
Game Score Charts59,3%https://gamescorecharts.wordpress.com/2016/12/29/game-probabilities/
"Studie 1" om ML på Hockey59,3%http://nhlnumbers.com/2013/8/6/theoretical-predictions-in-machine-learning-for-the-nhl-part-ii
"Studie 2" om ML på Hockey60%http://nhlnumbers.com/2013/5/18/can-we-make-predictions-in-hockey-with-machine-learning-a-simple-experiment

Bästa modellen når alltså upp till 60% och en “Studie 2” menar på att den teoretiska gränsen för att förutse vinnaren i en hockeymatch ligger kring 62%. In på länken om ni vill läsa mer om det.

Hmmm.

WAAPS levererar alltså 66,5% medan den näst bäst modellen i detta test ligger på 60% och teoretiska gränsen kring 62%.

Frågan som jag i detta läge twittrade ut, men som ingen hade något intresse i att svara på: Är WAAPS världens bästa modell som inte bara passerat utan direkt krossat den teoretiska gränsen på vad som tidigare varit möjligt eller är SHL enklare att förutse än NHL?

För att svara på fråga ett så undersöker vi fråga nummer två.

Sagt och gjort så fungerar nu WAAPS även med NHL-data.

Ett första snabbt test som går att genomföra är antalet hemmasegrar.
I NHL vinner hemmalaget 54% av matcherna. I SHL vinner hemmalaget 57% av matcherna.

Genom att arbeta fram Power Ranken på NHL-lagen får vi en tydligare indikation på vad svaret på vår fråga är. Det lag med högst justerad (hemma/borta) Power Rank i en NHL-match vinner 59,9% av matcherna. I SHL vinner det lag med högst Power Rank 67,7(!)% av matcherna. Där har vi svaret på vår fråga. NHL är svårare att förutse än vad SHL är och den teoretiska gränsen som det talas om i artikeln går inte att applicera på SHL.

Men vad levererar WAAPS på NHL-data då? 59,8% i Accuracy och 64,1% i AUC.

MätningNHLSHL
Hemmavinster54%57%
Justerad Power Rank59,9%67,7%
WAAPS ACC %59,8%66,5%
WAAPS AUC %64,1%69,9%

Slutsats.

SHL är enklare att förutse än NHL och WAAPS står sig väl i konkurrensen med modellerna som finns. WAAPS slår till exempel båda de modellerna som finns aktiva idag och det skall även tas in att modellen inte har justerats något för att passa NHL bättre. Jag har en övertygelse om att en eller två procentenheter ytterligare finns att addera till de 59,8% och därmed skulle den gränsen kunna nås som det talas om i artikeln med teoretisk gräns. Jag tvivlar faktiskt på den siffran. Kan bli ett mål för hösten att slå den siffran, i mån av tid.

Jag har även valt att skriva med AUC (Area Under Curve) som är ett sätt att utvärdera Machine Learning-modeller. I och med att det inte är specificerat i artiklarna ovan om de andra modellerna om det är ACC (Accuracy) eller AUC deras siffror är skrivna i så utgår jag från att det är ACC.

Som ni ser ovan så är det förstås lockande att bygga en modell baserat bara på Power Rank då den har en högre ACC än ML-modellen. Problematiken kan exemplifieras med fjolårssäsongen i SHL då KHK’s framfart under hösten hade missats i ALLA matcher då de hade sämre Power Rank än samtliga lag. Det hade ju inte varit kul. En parentes är att laget med högre Power Rank vann 64,8% av matcherna 16/17. WAAPS träffade på 68%).

WAAPS är bra men det finns potential till förbättring.

Founder. Writer. Data Scientist. The Monkey beater.

Spännande i kvartsfinalerna då vi står i ett läge där samtliga kvarvarande matchserier har ställningen 1-3. Tufft läge för de lagen som ligger under, helt klart. Under CMORE’s sändningar trycker de ut “endast 7.3% av lagen som hamnat i detta läge har lyckats vända 1-3 till seger 4-3” vilket översätts till att det är 7.3% chans för lagen att vända matchserierna. Varför säger då WAAPS att samtliga lag har större chans än 7.3%, där till exempel Växjö ligger på 37.5%, vilket är väldigt långt över 7.3%?

Först kan vi börja med problematiken att använda en generell siffra som 7.3% för samtliga matchserier. I två fall av tre vinner laget en matchserie som börjar hemma, ska samtliga matchserier bedömas som 66%-33% till en början? Nja, var serie måste förstås behandlas var för sig.

Har inte tid att ta fram exakta siffror här men vi för oss med lite antaganden,
Fyra matchserier har vänts. Räknar vi på fyra matchserier och 7.3% så har vi haft ställningen 3-1 55 gånger.

Hur många av de 44 matchserierna som haft ställningen 3-1 har varit till favören det högre rankade laget? Generaliserar vi helt så är det hälften av matcherna -> 27,5 matchserier(härligt med statistik så vi får se halva matchserier 🙂 ). Använder vi de där 66%-33%, vilket jag är tämligen säker på är närmre sanningen så landar vi på 18,15 matchserier.

De fyra matchserierna som vänts är följande:

2006 – Frölunda– Linköping
2009 – HV71– Timrå
2010 – Linköping – Frölunda
2015 – Frölunda – Luleå

I samtliga fall har laget med högre Power Rank (och högre serieplacering för den delen) varit laget som vänt serien.

Delar vi då 4 med 27,5 får vi 15%. Delar vi 4 med 18,15 får vi 22%.

Just nu bedömer WAAPS:

  • Växjö 37,52%
  • Frölunda 23,84%
  • Linköping 14,57%

Växjö som seriesegrare, och klart högre Power Rank än Malmö, får förstås den högsta siffran. Linköping då, som i stort sett är ett jämnstarkt lag med Brynäs “Power Rank-mässigt” får en siffra som är klart lägre en 22% (14,57%).

Med det sagt, ingen av matchserierna är på något sätt död men VLH, FHC och LHC har satt sig i trassliga situationer. Att samtliga lag reder ut det och når semifinal är osannolikt (1,3%) men var inte förvånad om vi får se en vändning i någon av serierna.

Goda råd är dyra. Men det kan de vara värda.

*Artikeln rättad från 9% till 7,3%. Rätt ska vara rätt.

Founder. Writer. Data Scientist. The Monkey beater.

JVM är i full gång i Kanada. SHL i full fart i Sverige. De unga är i Kanada. Vad innebär det för klubbarna? Vad tappar dem?

Har tagit fram en graf som visar vad respektive JVM-spelare har för påverkan i sina klubblag baserat på +/-. Siffrorna har stardardiserats gemtemot sina lagkamraters för att få en bild av vad varje spelare bidrar med i sin klubb. Dvs. om en kille har +3 i FHC och en annan har +-0 i LIF så kommer sannolikt spelaren i LIF ses som en viktigare spelare för sitt lag.


För att synas på grafen så måste spelaren ha över 9 minuters speltid per match i snitt och ha medverkat i 10 matcher eller fler.

Vi ser att flertalet av spelarna befinner sig i den defensiva boxen. De är därmed inne på minst mål bakåt men inte så många framåt som de främsta i sina lag. Ett lag som Skellefteå tappar tre av sina främsta defensiva forwards.

HV71, DIF och LHC tappar alla spelare som befinner sig i “Good”. Att ha i åtanke kan vara att varje lag har knappt två spelare vardera i rutan “Good”, tappar man en så försvinner 50%. Frölundas Carl Grundström är enda spelare som har offensiv som sitt tillskott till lagets ‘+/- std’.

Vem som förlorar mest är förstås svårt att dra som slutsats av dessa siffror men att samtliga spelare verkligen är med och bidrar i sina lag ser vi. Djurgårdens tapp av sin starkaste +/- spelare i Bernhardt är inte säkert att den blir kännbar på kort sikt då han hittills endast snittat 10:32 per match. Dags för mer speltid här?

Founder. Writer. Data Scientist. The Monkey beater.