Form som “predictor”?

Publicerade i veckan en graf över SHLs för dagen formstarkaste lags resa genom säsongen. Ibland går det upp och ibland går det ner. Det som åker upp kommer så småningom ner. Och när vi spelar så anser vi ju att form är viktigt. Är ett lag i bra form? Ja då är det rimligt att de vinner nästa match också. Eller? Hur är det egentligen, ett lag som har vunnit fyra raka matcher, är det rimligt att tro att den kommer vinna den 5:e också?

HV71’s form under säsongen. Lindom fick inte sparken i början utan i slutet av November.

Vi vänder oss till data och börjar med enkel matematik. Vi förutsätter att alla lag är lika bra och att det inte finns några andra aspekter än att en match är som att singla slant. Hur stor är sannolikheten att ett lag vinner 5 raka matcher då?

Ja det är ju 50/50 i alla matcher vilket leder till

50% chans att vinna 1
25% chans att vinna 2 raka
12,5% att vinna 3
6,25% att vinna 4
3,125% att vinna 5 raka

Detta är ju sannolikhetslära i sin enklaste form, vilken vi alla fått lära oss i grundskolan. Så hur ser det ut i SHL sista 8 åren? Vi inleder med att ta alla lag i våra beräkningar. Det finns 6198 datapunkter att gå igenom (3099 matcher).
Av de vinner förstås ett lag varje match.
Så vi inleder på samma siffra som matematiken har lärt oss.
50% chans att vinna 1
av dessa vann sedan 1572 match 2. Vilket är 25,4%
Av de 1572 som vann match 2 vann 801 match 3. 12,9%
Av de 801 som vann match 3 vann 404 match 4. 6,5%.
Av de 404 som vann match 4 vann 191 match 5. 3,082%.

Vi får ett resultat som är otroligt likt våra grundläggande matematiska kunskapers utfall. Förluststreakar är dock något mer förkommande. Se tabell nedan.

Antal matcher i radMatematiskt utfallUtfall vinstraderUtfall förlustrader
150%50%50%
225%25,4%25,1%
312,5%12,9%13,2%
46,25%6,52%7,20%
53,13%3,08%4,08%
61,56%1,45%2,36%
70,78%0,73%1,44%
80,39%0,32%0,94%
90,20%0,16%0,63%
100,098%0,097%0,436%

Titta noga på sista raden i tabellen. Enligt matematiken är det 0,098% chans att ett lag vinner 10 raka matcher. 0,097% har gjort det. 0,001% felmarginal.
Logik i kubik och helt fantastiskt samtidigt.

Men så här kan vi ju inte ha det. Vi delar upp lagen efter 3 grupper i stället.*
25% Bästa lagen Grupp 1.
25%-75% Mittenlagen Grupp 2
25% Sämsta lagen Grupp 3

Hur mycket mer sannolikt är det att ett lag ur Grupp 1 når 5 raka segrar än ett lag i Grupp 3?

Antal matcher i radMatematiskt utfallUtfall vinstrader Grupp 1Utfall vinstrader Grupp 2Utfall vinstrader Grupp 3
150%61%52%35%
225%35,4%26,24%12,73%
312,5%19,7%13,3%4,72%
46,25%10,72%6,5%1,94%
53,13%5,54%2,81%0,90%
61,56%3,01%1,15%0,32%
70,78%1,71%0,51%0,06%
80,39%1,00%0,10%0%
90,20%0,59%0%0%
100,098%0,354%0%0%

Sannolikheten att ett lag vinner 5 raka matcher är låg. Däremot skiljer sig den mellan grupperna. Såklart. Men om vi tittar på hur många som tar sig “vidare” för varje match så blir det mer intressant. Se grafen nedan. De bättre lagens (Grupp 1 och 2) vinstchans minskar för varje omgång. Medan de sämre lagens faktiskt ökar för varje omgång. (Nu ska vi komma ihåg att antalet datapunkter på “dåliga lag” som faktiskt vunnit 5 raka matcher är väldigt lågt, 14 st på 1548 försök).

Kommer ni ihåg Arsenals galna säsong i Premier League i början på 2000-talet när de gick obesegrade genom hela säsongen? Stora diskussion då var om de kommer närmre en förlust för varje vinst eller inte? Meningarna gick förstås isär. Men se vad som händer för bra lag (Grupp 1) i SHL efter 5 matcher. Vinstchansen minskar inte längre och vid 10 vinster i rad så är vinna normalläge, dvs. Vinstchansen är densamma som vid första matchen i streaken. *

Vad kan vi dra för slutsatser av detta sifferinferno?

  1. Snittet för SHL är identiskt med det vi fått lära oss i skolan. Gör vi inte skillnad på lag och lag så får vi en väldigt generell modell. Tänk på det nästa gång är t ex C More berättar att det är 25% chans att ett lag vänder en slutspelsserie baserat på historik. Detta är ett generellt tal. Är det inte ett generellt lag vi pratar om stämmer inte siffran.
  2. Endast 6 lag har vunnit 10 matcher i rad. Alla var topp 25% när de inledde streaken.
  3. Form är ett väldigt svagt sätt att förutse hur nästa match ska gå. Ett bra lag har något större chans att vinna nästa match än att förlora den. Alla lag som inte är topp 25% kommer faktiskt närmre en förlust för varje vinst.

*Gruppindelningen sker baserat på lagens PowerRank.
*Vinstchanserna är dock generella i denna modell. Ingen hemma/borta-justering eller motståndsjusterad. Alla motståndare behandlas lika. Komplexiteten/tid sätter stopp för en sådan artikel.

Founder. Writer. Data Scientist. The Monkey beater.

Sen den smått fantastiska 8-5 förlusten den 10 December mot Frölunda så har Växjö Lakers 10 raka segrar. Det är bra. I medierna tokhyllas Lakers och enligt “experterna” så är allt annat än en final mellan Frölunda och Växjö en stor skräll. Växjö leder idag SHL. Vi börjar där. Tidigare så har det nästan sett osannolikt ut att något lag skall kunna hota om seriesegern. Twittrade ut följande graf tidigare idag;

PositionTeamPoint Predicton
1 FHC 108.0
2VLH97.9

“Point Prediction”-modellen har givetvis också fångat upp framfarten och kurvan har i stort sett varit stigande sen Oktober (75p då) för Växjö. Men hur kan modellen tro att Frölunda kommer vinna grundserien med tio poäng när laget inte ens leder serien? Korta svaret, skillnaden på form och skicklighet(Power Rank).
Givetvis kan Växjö vinna grunderserien men det logiska enligt modellen är att formen avtar snart medan FHC kommer att tuffa på och nå sina ~108 poäng.

Men hur mäter man form?

Tänkte ge er synen “Better Than a Monkey” har på form och vad som påverkar utloppet av matcherna. Hur de olika parametrarna viktas i modellen förblir osagt men för att få en nyanserad bild så används två olika mått på form i modellen för att få fram vinstchanserna.

“Kortform” och “långform”.

Att använda endast ett mått på form visade sig tidigt i algoritmutvecklingen vara ett relativt svagt sätt att mäta på. Fem och femton matcher används. 5 matchers form = kortform. 15 matchers form = långform. Ganska snart visade sig även detta, framförallt kortformen, något bristfällig. Tack vare det vägs även motståndarlagets skicklighet in i formen.

Exempel.
Växjö besegrar Frölunda under ordinarie speltid. Istället för att 3 poäng/1 seger till Växjö så får dem Frölundas Power Rank(681) delat på 100. -> 6.81. En seger i förlängning ger Power Rank *0.5 -> 3.4. På samma sätt så subtraheras form från Frölunda baserat på Lakers Power Rank. Sedan dras snittet genom samtliga matcher för den aktuella perioden (kort eller lång).

Därmed rankas en seger mot FHC klart högre än en seger mot exempelvis RBK. På samma sätt så blir formen klart svagare om ett lag förlorar mot RBK än mot FHC.

Nedan syns två grafer, en som mäter kortform (r5) och en som mäter långform(r15). Karlskrona har inkluderats tillsammans med de två topplagen för att visualisera deras starka säsongsstart.

På detta sätt kan vi se och jämföra form under olika perioder under en säsong. Skiftningarna blir klart mer dramatiska i r5. Som graferna visar, Växjös nuvarande form är stark. Riktigt stark både kort som lång.

On fire? ja.

Founder. Writer. Data Scientist. The Monkey beater.