SHL Bracket Challenge

Var med o tippa SHLs slutspel.

Poängfördelning:

För varje korrekt gissat lag vidare i
– 8-del ges 1 poäng
– Kvartsfinal 2 Poäng
– Semifinal 3Poäng
– Final 4 Poäng
– Kval 2 Poäng

Vid flera tävlanden på full poäng används matchserieresultaten som särskiljare. Flest rätt vinner!

Första & enda priset är ett 1-årsabonemang av Better Than a Monkey!

Tyvärr finns det inte så mycket smartness i formuläret och ingen läcker grafik. Så håll era vinnare i skallen och rita gärna trädet framför er för att få ihop det korrekt. Kom ihåg att det bäst rankade laget möter det sämst rankade osv. i var rond.

Ranken.

  1. VLH
  2. RBK
  3. LIF
  4. SKE
  5. LHF
  6. ÖHK
  7. FHC
  8. FBK
  9. MIF
  10. DIF

Öppen till 5 min innan 8-delarna startar. Lycka till!

Tävlingen låst. Tack för alla bidrag!

Founder. Writer. Data Scientist. The Monkey beater.

Det finns en mängd olika så kallade xG modeller ute i det vilda. Den heliga gralen i sportanalys överlag är förstås att finna den bästa, mest träffsäkra xG-modellen. Du som är här för att finna den kan sluta läsa nu.

En xG-modell (expected goals = förväntade mål) beräknar helt enkelt hur troligt det är att ett avslut faktiskt slutar upp som ett mål, dvs vi vill bedöma kvalitén på avsluten. För att kunna skapa en så bra modell som möjligt så behövs förstås så många olika parametrar som möjligt. Det har vi idag inte tillgång till med SHL data (önskas se en sådan modell på NHL-data rekommenderas MoneyPuck)

Den datan som jag har tillgänglig är positionsdata, som förvisso är grundstenen i alla xG-modeller, vilket gör att vi kan komma en bra bit på vägen.

Alla avslut 2019/2020

Apans xG-modell har på ett enkelt sätt delat in planen i ett rutnät på 22X100 rutor. För varje ruta som har över 250 avslut räknas skottprocenten fram (mål / alla avslut). Dvs. alla avslut utanför offensiv zon kommer bli blanka. Detta hanteras med att sätta ett värde på 0,01 på alla rutor med < 250 avslut. Avsluten som tagits gångas sedan med rutprocenten och på den vägen får vi den enklaste form av ett förväntat mål.

Som exempel kan vi ta Joel Lundqvist och Nils Lundkvist i mötet FHC – LHC den 24 Oktober. Joel sköt 7 skott under matchen medans Nils mäktade med 11 skott. Joel hade efter matchen en xG på 0,94. Nils 0,22. Ta en titt på skottkartorna så får vi en förklaring på det.

Joel Lundqvist
Nils Lundkvist

Med hjälp av denna modell får vi helt enkelt fram “shooter talent”, Har en spelare bättre skottprocent än medelavslutet från den positionen så får den ett positiv avtryck. Detta mäter vi med Actual vs. Exptected. Som exempel, säsongen 17/18 gjorde Elias Pettersson 24 mål. Förväntat var strax över 9. Max Friberg gjorde 4 mål på sina förväntade 12.

Med hjälp av xGn kan vi därmed se lags utveckling genom matcher men även spelares utveckling jämfört med sin utdelning,

Frölunda vann matchen med 4-1.
Gustav Rydahls karriär sedan 2017.

En enkel modell men än bättre sätt än inget att sätta ett värde på ett skott. En mängd grafer kommer kommande dagar på sajten.

Founder. Writer. Data Scientist. The Monkey beater.

För att mäta förväntingarna på säsongen, var god fyll i hur du tror det SHL slutar 2020/2021. Alla tips som har samma lag på två placeringar stryks (inte lyckats programmera fram begränsningen)

Tack för alla inlämningar, sammanställning pågår.

Founder. Writer. Data Scientist. The Monkey beater.

Efter varje match finns det en hel del siffror att ta del av vilket kan, med lite kreativitet, vinkla en insats till lite vad som önskas av den som tittar på siffrorna. Låt säga att vi har en spelare som gör ett mål, en assist, skjuter två skott på mål men är samtidigt inne på tre mål bakåt samt tar två tvåminutersutvisningar. Laget har dessutom fått dubbelt så många skott mot sig när spelaren har varit på isen. Hur bedömer vi en sådan insats? Tittar vi bara på poängen ser det bra ut. Tittar vi bara på corsin ser det inte bra ut. Plus Minus är negativt också.

PlayerGA1A2+-GWGSOGBkSCorsi CFCorsi CAPIMBoxPlayMinsPerGoal
Player X1012302081640

I ett försök att ge en neutral betygsättning på sajten intoducerar jag nu “Game Score”. Kraftigt influerad (till större delarna kopierat modellen) av Dom Luszczyszyn (https://hockey-graphs.com/2016/07/13/measuring-single-game-productivity-an-introduction-to-game-score/ ). Med hjälp av datan presenterad ovan så viktas och summeras de olika mätetalen till ett gemensamt mätetal, “Game Score”.

([G] * 0,75) + ([GWG]*0,25) +(0,7 * [Assists A1]) + (0,55 * [Assists A2]) + (0,15 * [+]) – (0,15*[-]) + (0,075 * [SOG]) – (0,15 * [PIM]) + (0,15 * [BkS])) + (0,05 * [Corsi CF]) – (0,05* [Corsi CA]) + (0,075 * [BPMinutesWithOutGoal])

Några skillnader/förbättringar jämfört med originalformeln;
  • Matchavgörande mål värderas högre än ett vanligt mål (+0,25)
  • Ett blockat skott värderas högre (dubbelt så högt som ett skott på mål)
  • Spel i numerärt underläge räknas med, för varje minut en spelare är på isen utan att det blir mål belönas med poäng
  • Backmål värdesätts extra (+0,25)

Varför värdera ett blockat skott högre än ett skott på mål? I och med att vi saknar kontext, dvs. avslutet kan vara från varstans så är långt i från alla avslut tagna med intentionen “att göra mål”. Däremot så är varje “blockat skott” ett initiativ för att stoppa ett skott från att gå i mål.

Genom att applicera formeln på Player X nämnd ovan så får hen en Game Score på 0,6. Det blir ett positivt värde (en spelare som är inblandad i 0 event får betyg 0) vilket visar att målen spelaren bidrog med ändå väger upp de sidorna som inte var lika bra från matchen.

För att se om det finns substans i mätetalet gör vi ett stickprov historiskt och tittar på spelare som gjort fler än 30 matcher säsongerna 15/16-18/19.

BTAMGS20200113-2

Ögontestet säger att mycket är rätt med detta mätetal. Elias Petterssons säsong 2017 är outstanding!
Joakim Lindström är med ett antal gånger men sänks av många utvisningsminuter (2017 hade Lindström 63 utv min. Möller hade exempelvis 6).
Frågetecknet landar på Lasch som känlsan säger borde kvalificera sig högre (13:e bästa).

Formeln för målvakter blir enklare. Skillnaden görs på räddningar/insläppta mål från slottet.

([GA Outside Slot] * -0,95 ) + ([GA from Slot] * -0,8 ) + ([SVS outside Slot] * 0,05 ) + ([SVS Slot] * 0,2)

Slutsats

Finns förstås bra uppsida och uppenbara faror med att använda ett sådant här mätetal. Fördelen är att, på ett snabbt sätt, få en överblick över hur en spelare har presterat under en match.

Ett så kallat “all-in-one” mätetal förenklar mycket och kan vara en bra ingång på en analys. Största faran är att siffrorna inte sätts i någon kontext. Som exempel, ett skott på mål kan vara superfarligt men likväl vara en indumpning som landar på målvakten.
Saker i spelet försvinner även, säg Laschs stora styrka som är att hitta in passningar i slottet. Gör inte spelaren som blir serverad mål syns inte spelet i statistiken här.

Founder. Writer. Data Scientist. The Monkey beater.

Totalt deltog 96 st personer i undersökningen “SHL 2019/2020”.

Så här tror BTAMs läsare att SHL slutar 2019/2020.

  • Key takeaways
  • Frölunda är enda laget som ingen tror missar direktplats till kvartsfinal (topp-6).
  • Oskarshamn får motsatstipset. Ingen tror på en topp-6 placering för smålänningarna.
  • Det tordes bli tre tydliga block i serien.
    En topp 5 som slåss om seriesegern.
    Fem lag som fajtas om placeringarna 6-10.
    Örebro, Leksand och Linköping försöker undvika negativ kvalplats.
    Och sen har vi Oskarshamn.

Svenska mästare tror massan även den att Frölunda blir med Färjestad som främsta utmanare. (Väldigt jämnt med 30,5% mot 29,5%). Skillnaden mot serietipset här är att Växjö passerar Luleå i vinstchans.

LagJournalisternaFansen
Djurgården24,13%13,68%
Färjestad13,79%29,47%
Luleå12,64%7,37%
Växjö Lakers11,49%11,58%
Frölunda10,34%30,53%

Kul kuriosa är att alla lag utan två styckens sympatisörer tror att deras lag kommer leverera bättre än vad massan tror. Dessa är de två topptippade lagen, Färjestad och Frölunda.

Founder. Writer. Data Scientist. The Monkey beater.

Dags för finalspel i SHL och vi har en storstadsduell mellan Frölunda HC och Djurgårdens IF. WAAPS har kört fram sina siffror men vi börjar med Power Rank modellen som skapades i början på slutspelet för att se hur stor chans vardera lag hade till segern. Vi inledde slutspelet med en grundlig twitterundersökning.

Enligt PowerRank-modellen där vi har generaliserat hårt mellan säsongerna så fick serieledaren 21% chans att vinna guld. FHC och DIF gick in i sluspelet med 14% respektive 11% chans på guld. Nu är de siffrorna uppe på 57% och 43%. Många var inne på att i och med att historiskt så har ettan vunnit nästan 50% av slutspelen så därför är det 50% chans att de gör det framåt också. Detta är förstås att dra för hårt i historiens kraft.

Ta exemplet med att ingen har vänt att ett 0-3 underläge i en slutspelsserie. Med de siffrorna så är det då 0% chans att det går att vända och vi borde därmed inte ens spela fler matcher i serien. Vi förstår ju förstås att detta inte är sant. Det går att vända även om ingen har gjort det historiskt.

Det var en avstickare, nu till finalen. Så här bedömer twitter guldchanserna.

Så twitter tror ganska hårt på Frölunda. Det gör även WAAPS.

Så vad är det som gör att Frölunda får en sådan fördel jämfört med Djurgården?

Frölunda och Djurgården är rent Power Rank-mässigt två ganska lika lag och med hemma/borta-justering så är båda lagen bättre än det andra laget när det vankas hemmamatch. Så här vinner FHC på fler hemmamatcher.

Lagen bedöms sedan på vägen de tagit sig till final. Dess semifinalmotståndare var jämnbördiga (FBK och LHF) men Frölunda vann sin matchserie på ett klart enklare sätt. Plus FHC.

Lagen bedöms sedan på sin förmåga framåt och bakåt med tiltat mot senaste matcherna. Djurgårdens läckage match 5 och 6 mot FBK sänker dom rätt kraftigt. Plus FHC.

Övriga kategorier är det två jämnbördiga lag men just dessa siffror ger edgen till FHC. Man bedöms helt enkelt gjort ett bättre slutspel.

Founder. Writer. Data Scientist. The Monkey beater.

Vad baseras procenten på? Det är vanligaste frågan som jag får på twitter. Här kommer svaret. Maskininlärning.

Jag har varit inne på området och snubblat ett par gånger och ska här försöka göra förtydliganden. Idéen till “Better Than a Monkey” föddes för att kunna reda ut vilka parametrar verkligen betyder något och vilka som inte gör det. Slå hål på klyschorna. Och med målet, som namnet antyder, förutse hockey på ett bättre sätt än vad en apa skulle göra (>50%).

För att inte göra detta för komplicerat så kommer vissa förenklingar att göras. En uppsats om algoritmen ur ett spelande perspektiv finns för den som vill fördjupa sig. Denna är framtagen tillsammans med forskare inom maskininlärning på Jönköping University. Hör av er på mejl eller twitter så löser vi den.

Grundinformationen till algoritmen WAAPS (Bet-M i uppsatsen då “inte ens nobelprisvinnare döper sina metoder efter sig själva”. Jaja.) är alla matcher i SHL sedan 2010. Ur denna urvinns information och generas upp i en databas. Datat modelleras på ett sådant sätt att vi t.ex. kan se


– vilken form ett lag har
– hur bra det är/har varit över tid (PowerRank)
– hur bra motståndarna var vid matchens tillfälle
– offensiv/defensiv kraft
– Hur lagen har spelat mot varandra tidigare

Grundparametrar man ofta talar i när man ska förutse vem som ska vinna en match helt enkelt.

Lagen jämförs sedan mot varandra på olika nivåer likt, “Vilket lag är bäst?” “Hur mycket bättre är lag A?” osv. Totalt ställs lagen mot varandra på detta sätt i 47 frågor (kallas Feature Engineering i ML-världen).

Här ifrån är det “magin” skapas. Genom att lägga på en självtränande algoritm så tränar den fram vilka faktorer som är viktigast. Genom att testa sig om och om igen så når det och skapar sedan upp en formel som framtida matchers data körs igenom för att få fram sannolikheterna.

Genom träningen av modellen får vi en “score” på hur väl algoritmen som tränats fram kan prestera på historisk data.


Lite nyckeltal ur grafen. Accuracy är träffsäkerheten på när 1=1 och 2=2. Lite motsägelsefullt är 2 (bortaseger) “Positiv label” i min modell. Vi ser ovan att modellen idag har 805 “True Positve” och 444 “False Positive”. Detta innebär att det har blivit bortaseger, på historisk data, i 805 av de 1249 (805+444) fallen som modellen trodde på (64,5%). Hemmasegrar har fallit in på 1371 av 1945 (70,5%). Totalt landar då Accuracyn på 68,1%.

Detta innebär att vi förväntar oss att framåt, såvida inte förutsättningarna förändras tror vi på en träffsäkerhet på 68,1%. Vilket på samma sätt innebär att vi tror att vi kommer ha fel på 31,9% av framtida matcher.

Detta var ett försök på att inte göra det för tekniskt men har du frågor om modellen i stort eller maskininlärning så dra gärna ett mejl på erik.wilderoth@gmail.com eller kontakta mig på twitter.

Founder. Writer. Data Scientist. The Monkey beater.

Förstår baserat på responsen på twitter att allt inte är så solklart som en inbiten kanske tror kring data, statistik och hockey.

Med anledning av det så kör vi en liten statistikskola av enklare mått. Vi börjar med Corsi.

Corsi. Fancystatsens okrönte kung?

Det är en diskussion Corsi kan/kommer förlora men ett mått som nått oss i Sverige och SHL med storm denna säsong.

Jim Corsi, mångårig målvaktstränare i NHL, är namnet på mannen bakom mätetalet Corsi. Corsi går även under namnet SAT (Shot attempts).
En rolig parantes med Jim Corsi är att han har spelat i två lag som även min svåger spelat i. Det ni.

Hur som haver, Detta har visat sig vara ett av de mått som korrelerar bäst med hur en säsong ska sluta. Bra/hög Corsi -> bra/hög slutplacering i tabellen.
Corsi går att mäta på både spelar som lagnivå. Vi börjar på lagnivå.
shl.se finns denna säsong att bla. Corsi att tillgå. Så här ser det ut idag.

CF – Corsi Forward – Skottförsök för laget när spelaren är på isen
CA – Corsi Against – Skottförsök mot laget när spelaren är på isen
CF% – CF / (CF + CA) -> Corsi %
CCF% – Corsi när ställningen i matchen är inom ett måls skillnad i period 1 och 2 eller lika i tredje perioden

Detta kan vi göra till en graf med förstås. Det som är viktigt att tänka på är att detta är totala siffror. Corsi% blir då korrekt. Men antalet skott, är ju i spel 5 mot 5 och det har lagen spenderat olika tid i. Så vi får fördela det per 60 min istället.

CF60 och CA60 är följdaktligen Corsi per spelad timme i spel 5 mot 5. Så här ser det ut. Vi kan enligt konstens regler fördela det i fyra kvadranter. Befinner sig ditt lag ner till vänster är det inte bra. Då skjuter ni för lite och får många skott på er. Upp till vänster händer inget. Drar det mot nedre högre kvadranten skjuts det hej vilt. Upp till höger är en trygg plats. Då skjuts det mycket framåt samt släpper till färre skott. Bra helt enkelt.

Corsi på spelarnivå

Här blir det lite mer komplicerat då vi inte bara räknar spelarens individuella skott utan hela spelarens kedja. Alltså vilka skott hen varit inne på framåt och bakåt. Inte speciellt komplext egentligen, inte mer en för personen som ska hinna logga samtliga tio spelare vid varje avslut.


Ovan ser ni CA60/CF60 per spelare för spelare som är uttagna i Tre Kronor. Här blir det, precis som den gode Simon påpekar i tweeten lite skevt då vissa lag som ni såg tidigare är starka Corsilag, andra svaga. Här glider man med lite på kollektivet. Så vi tar en titt över normalfördelningen per lag. En densitetsgraf.

Blir ännu tydligare när vi drar två lag ur högen

En spelare i HV71 kommer med största sannolikhet ha en bättre Corsi än en spelare i Timrå. Inom lagen fungerar det ju fortfarande bra att jämföra med detta mått men blir skevt när vi jämför spelare mellan lagen, likt grafen ovan över landslagspelare. Då har vi Relativ Corsi att ta hjälp av. Enkelt, Spelarens CF% – Lagets CF%. Det ger oss följande Box_Plot().

En boxplot fungerar som följande, Ligger du inom boxen för laget tillhör du lagets medel. Från nedre 25% till 75% är lådan. Dvs. Lagets 25% “sämsta” spelare enligt Relativ Corsi hamnar under lådan. Lagets 25% “bästa” spelare, de med högst Relativ Corsi hamnar överlådan. Kvartiler helt enkelt. Lådan rymmer därmed 50% av lagens spelare. En liten låda, en jämn “core” grupp i laget. Kolla skillnaden på Skellefteå och Färjestad.

Ett lag som Luleå har som synes bra spets (Jack Connolly och Petter Emanuelsson) jämfört med gruppen, då får toppar långt i från lådan.

Så här har vi Relativ Corsi för Tre Kronors spelare. Jämför gärna med grafen ovan. Se vad som händer med spelare som Bemström och Kellman.

Founder. Writer. Data Scientist. The Monkey beater.

Vem vinner SHL? Det är en fråga undertecknad får ofta. Svaret har alltid varit detsamma. “Det vill du inte veta”. “Hur kul skulle det vara att veta allt i förväg?”.

Men nu vill vi veta. Har under dagen genomfört en simulering för resten av säsongen för att avgöra vem som kommer vinna denna jämna säsong. Tidigare säsonger har jag genomfört “Points Predictions”. Detta är en enkel modell som jobbat med “regression mot medeltalet”. Dvs, ett lag som hållt högre poängsnitt än vad PowerRanken förutspått under säsongen kommer få ett lägre poängsnitt resten av säsongen. Och vice versa med ett bra lag.

Vi kan för skojs skull inleda att ta en titt på hur den modellen fungerade ifjol, med utgångspunkt på antalet matcher är dylikt till det vi har kvar i SHL (30% av säsongen).

TeamGamesPointsPointPredActualPointDiffRankPredictionActualRankRankDiff
VLH38821091167110
DIF376690955220
FBK39668787034-1
FHC386386948431
LHC37618678-859-4
SAIK386285872651
MIF365984862761
HV7137598381-2880
BIF37588270-12910-1
LHF3855758161073
OHK36446458-61112-1
RBK38405661512111
MIK37365351-213130
KHK38355147-414140

Snabbt konstaterande, den enkla modellen levererar helt ok. Luleå och Linköping är de enda två lagen som skiftar mer än en position mot prediktionen i slutändan. Vid prediktionens exekvering så skiljde det 8 poäng mellan 2-8 position. Så detta kunde varit en modell vi jobbar med i år med. Men så jobbar vi inte här. Här utvecklar vi saker.

Så först, hur tror Twitter det slutar?

Totalt har vi 336 poäng kvar att spela om. Metoden som används. Resten av säsongen simuleras med hjälp av WAAPS. Poängen fördelas baseras på vinstachans. Har ett lag har 66% vinstchans i en match så har laget tilldelats 2 poäng. Laget med med 33% får en poäng. På detta sätt har de 336 poängen fördelats på följande sätt.

TeamPoints
FBK29.9
MIF29.0
LHF28.7
DIF28.3
SAIK26.9
HV7124.7
VLH24.4
BIF24.2
LHC23.3
FHC23.1
RBK20.6
TIK20.3
OHK17.8
MIK14.8
Totalsumma336

Värda saker att påpeka,

  • Timrå tar nästan 6 poäng fler än bottenkollegan Mora
  • Färjestad tar 30 poäng. Flest av alla.
  • Malmö näst flest.
  • Frölunda tar däremot endast 23 poäng.

Hur påverkar detta då en sluttabell? (inkl. gamla modellen som benchmark också)

TeamGamesPoints TodaySimulationPoint Pred Old Model
LHF366492.789.4
FBK366291.988.5
MIF366089.085.3
DIF366088.384.5
FHC376285.187.2
SAIK365783.882.5
HV71365882.784.2
VLH365680.482.1
LHC365679.381.9
BIF365377.278.1
RBK365272.673.4
ÖHK364057.858.9
TIK353656.356.0
MIK364054.859.5

Så, där har vi det. Luleå vinner grundserien. HV, VLH, LHC och BIF hamnar i Play-In. Timrås spurt räcker…nästan. De följer med Mora till Kval.

Denna tabell kommer uppdateras minst på veckovis resten av säsongen.

Founder. Writer. Data Scientist. The Monkey beater.

Publicerade i veckan en graf över SHLs för dagen formstarkaste lags resa genom säsongen. Ibland går det upp och ibland går det ner. Det som åker upp kommer så småningom ner. Och när vi spelar så anser vi ju att form är viktigt. Är ett lag i bra form? Ja då är det rimligt att de vinner nästa match också. Eller? Hur är det egentligen, ett lag som har vunnit fyra raka matcher, är det rimligt att tro att den kommer vinna den 5:e också?

HV71’s form under säsongen. Lindom fick inte sparken i början utan i slutet av November.

Vi vänder oss till data och börjar med enkel matematik. Vi förutsätter att alla lag är lika bra och att det inte finns några andra aspekter än att en match är som att singla slant. Hur stor är sannolikheten att ett lag vinner 5 raka matcher då?

Ja det är ju 50/50 i alla matcher vilket leder till

50% chans att vinna 1
25% chans att vinna 2 raka
12,5% att vinna 3
6,25% att vinna 4
3,125% att vinna 5 raka

Detta är ju sannolikhetslära i sin enklaste form, vilken vi alla fått lära oss i grundskolan. Så hur ser det ut i SHL sista 8 åren? Vi inleder med att ta alla lag i våra beräkningar. Det finns 6198 datapunkter att gå igenom (3099 matcher).
Av de vinner förstås ett lag varje match.
Så vi inleder på samma siffra som matematiken har lärt oss.
50% chans att vinna 1
av dessa vann sedan 1572 match 2. Vilket är 25,4%
Av de 1572 som vann match 2 vann 801 match 3. 12,9%
Av de 801 som vann match 3 vann 404 match 4. 6,5%.
Av de 404 som vann match 4 vann 191 match 5. 3,082%.

Vi får ett resultat som är otroligt likt våra grundläggande matematiska kunskapers utfall. Förluststreakar är dock något mer förkommande. Se tabell nedan.

Antal matcher i radMatematiskt utfallUtfall vinstraderUtfall förlustrader
150%50%50%
225%25,4%25,1%
312,5%12,9%13,2%
46,25%6,52%7,20%
53,13%3,08%4,08%
61,56%1,45%2,36%
70,78%0,73%1,44%
80,39%0,32%0,94%
90,20%0,16%0,63%
100,098%0,097%0,436%

Titta noga på sista raden i tabellen. Enligt matematiken är det 0,098% chans att ett lag vinner 10 raka matcher. 0,097% har gjort det. 0,001% felmarginal.
Logik i kubik och helt fantastiskt samtidigt.

Men så här kan vi ju inte ha det. Vi delar upp lagen efter 3 grupper i stället.*
25% Bästa lagen Grupp 1.
25%-75% Mittenlagen Grupp 2
25% Sämsta lagen Grupp 3

Hur mycket mer sannolikt är det att ett lag ur Grupp 1 når 5 raka segrar än ett lag i Grupp 3?

Antal matcher i radMatematiskt utfallUtfall vinstrader Grupp 1Utfall vinstrader Grupp 2Utfall vinstrader Grupp 3
150%61%52%35%
225%35,4%26,24%12,73%
312,5%19,7%13,3%4,72%
46,25%10,72%6,5%1,94%
53,13%5,54%2,81%0,90%
61,56%3,01%1,15%0,32%
70,78%1,71%0,51%0,06%
80,39%1,00%0,10%0%
90,20%0,59%0%0%
100,098%0,354%0%0%

Sannolikheten att ett lag vinner 5 raka matcher är låg. Däremot skiljer sig den mellan grupperna. Såklart. Men om vi tittar på hur många som tar sig “vidare” för varje match så blir det mer intressant. Se grafen nedan. De bättre lagens (Grupp 1 och 2) vinstchans minskar för varje omgång. Medan de sämre lagens faktiskt ökar för varje omgång. (Nu ska vi komma ihåg att antalet datapunkter på “dåliga lag” som faktiskt vunnit 5 raka matcher är väldigt lågt, 14 st på 1548 försök).

Kommer ni ihåg Arsenals galna säsong i Premier League i början på 2000-talet när de gick obesegrade genom hela säsongen? Stora diskussion då var om de kommer närmre en förlust för varje vinst eller inte? Meningarna gick förstås isär. Men se vad som händer för bra lag (Grupp 1) i SHL efter 5 matcher. Vinstchansen minskar inte längre och vid 10 vinster i rad så är vinna normalläge, dvs. Vinstchansen är densamma som vid första matchen i streaken. *

Vad kan vi dra för slutsatser av detta sifferinferno?

  1. Snittet för SHL är identiskt med det vi fått lära oss i skolan. Gör vi inte skillnad på lag och lag så får vi en väldigt generell modell. Tänk på det nästa gång är t ex C More berättar att det är 25% chans att ett lag vänder en slutspelsserie baserat på historik. Detta är ett generellt tal. Är det inte ett generellt lag vi pratar om stämmer inte siffran.
  2. Endast 6 lag har vunnit 10 matcher i rad. Alla var topp 25% när de inledde streaken.
  3. Form är ett väldigt svagt sätt att förutse hur nästa match ska gå. Ett bra lag har något större chans att vinna nästa match än att förlora den. Alla lag som inte är topp 25% kommer faktiskt närmre en förlust för varje vinst.

*Gruppindelningen sker baserat på lagens PowerRank.
*Vinstchanserna är dock generella i denna modell. Ingen hemma/borta-justering eller motståndsjusterad. Alla motståndare behandlas lika. Komplexiteten/tid sätter stopp för en sådan artikel.

Founder. Writer. Data Scientist. The Monkey beater.