Chi vincerà lo scudetto?

Il campionato ha da poco passato il giro di boa e si appresta a vivere la sua 24° giornata. In testa continua il duello tra Napoli e Juventus con i partenopei che sono giunti alla loro 7° vittoria consecutiva ed i bianconeri che hanno prontamente ribattuto colpo su colpo riuscendo a rimanere ad un solo punto di distanza dalla capolista. In attesa del verdetto “ufficiale” su chi sarà la squadra campione d’Italia 2017-18, abbiamo deciso di giocare un po’ con i numeri a disposizione e tentare di prevedere, per mezzo di un modello statistico, chi vincerà questo scudetto.

Il modello

Il modello utilizzato in questa simulazione assume che il numero di goal fatti e subiti da ciascuna squadra in ogni partita sia una variabile casuale. Casuale? Sì, per tentare di prevedere quello che accadrà sul campo di gioco abbiamo “adattato” la realtà ad un modello statistico, molto semplice, basato su alcune assunzioni a priori:

  1. non è possibile prevedere esattamente il minuto in cui verrà segnato un goal
  2. il fatto che una squadra segni un goal non dipende dal risultato della partita in quel momento
  3. il goal è un evento raro

Si tratta di assunzioni tutto sommato realistiche. Per quanto riguarda la prima, alzi la mano colui al quale non è mai capitato di distrarsi un attimo assistendo a una partita e…perdersi un goal!

La seconda assunzione, anche se a prima vista può sembrare forzata, è in un certo senso correlata alla prima. Ma se ci pensiamo una squadra può segnare un goal in qualsiasi momento indipendentemente da quanti goal ha già segnato o subito fino a quel momento. Ogni domenica, o quasi, non sentiamo forse parlare di “uno-due micidiale” per indicare il fatto che una squadra ha segnato due goal a poca distanza l’uno dall’altro, oppure di “goal della bandiera” quando una squadra pur accusando un passivo pesante, riesce comunque a segnare un goal? Essere sotto di 4 goal non influenza, ipso facto, le possibilità di segnare il 4-1…o viceversa di subire anche il 5° goal. Quante partite si trascinano quasi fino allo scadere del tempo sul punteggio di 0-0 e poi vengono sbloccate negli ultimi minuti? Ci fermiamo qua con gli esempi. Ma siamo sicuri che se voleste potreste continuare all’infinito…

Infine, sulla terza, beh, sarete d’accordo che è assolutamente verosimile: in questo campionato il numero di partite in cui è stato segnato al massimo un goal è pari a poco meno del 25% del totale delle partite giocate. Cioè 1 partita su 4 finisce 0-0, 1-0 oppure 0-1. Il numero medio di goal a partita segnati in questo campionato è 2,72. Pochi rispetto al numero di punti segnati mediamente in un match di altri sport come il basket, la pallavolo, il rugby o il baseball. Il goal è un evento raro, non c’è che dire e probabilmente è questo il motivo principale che rende il calcio così affascinante.

2018-02-09
Distribuzione dei goal segnati “in casa” e “fuori casa” nel campionato di Serie A 2017-18 (23° giornata)

Ora, se queste assunzioni sono vere, o verosimili, possiamo indossare il cappello da statistici e ipotizzare che il numero di goal segnati in ogni partita segua una distribuzione casuale di Poisson. Detto questo, ci sono almeno due buone notizie:

  1. per poter applicare la distribuzione di Poisson, ci basta conoscere il numero medio degli eventi che si verificano in un dato intervallo di tempo. Nel nostro caso, i goal per partita;
  2. è possibile “applicare” la distribuzione di Poisson sia al numero di goal totali in una partita, sia al numero di goal che, in ogni partita, ciascuna squadra segna e subisce.

Quindi, abbiamo il numero medio di goal a partita: 2,72 e siamo convinti che il numero di goal a partita sia assimilabile ad un evento casuale che segue una distribuzione di Poisson. Possiamo allora verificare di quanto la realtà si discosti dal “nostro” modello. Queste qui di seguito sono le distribuzioni del numero “reale” di goal (totali) a partita segnati in questa Stagione di Serie A dopo 23 turni di campionato e di quello stimato applicando una distribuzione di Poisson con media 2,72.

Poisson
Confronto tra la distribuzione di probabilità reale dei goal a partita e quella stimata con un modello di Poisson

Che ve ne pare? Notate qualche somiglianza? Sì, ci sono, delle differenze, presumibilmente dovute al campione non molto numeroso preso in considerazione (solo 230 partite) ma non risultano comunque essere statisticamente significative.

10.000 simulazioni

A questo punto, accettando per buono questo modello è possibile azzardare una previsione sull’esito finale del campionato. Per tentare di essere più precisi nelle previsioni potremmo iniziare con l’ipotizzare che il numero di goal che ciascuna squadra segna in un match si distribuisca come una variabile casuale di Poisson con media pari alla media de’:

  • il numero medio di goal segnati a partita
  • il numero medio di goal subiti a partita dall’avversario

Ad esempio, se la squadra A segna in media 2,5 goal a partita e il suo avversario, la squadra B, ne subisce appena 0,5, il numero di goal segnati dalla squadra A nella partita “squadra A vs squadra B” si distribuirà come una Poisson con media pari “solo” 1,5.

Stesso ragionamento andrà fatto per la squadra B, ovviamente.

Detto questo, noi, per rendere ancora più realistico il modello, abbiamo introdotto la distinzione tra performance “casalinghe” e “in trasferta”. Ossia, riprendendo l’esempio di prima, abbiamo considerato che la squadra A giocando “in casa” ha un media di goal segnati più alta, ipotizziamo, pari a 2,7 e che la squadra B ha una media di goal subiti in trasferta pari a 1,3. Quindi, in questo caso, il numero di goal segnati dalla squadra A nella partita “squadra A vs squadra B” si distribuirà sempre come una Poisson ma con media pari 2. Di nuovo, lo stesso ragionamento sarà valido anche per la squadra B, considerando i suoi goal fatti in trasferta mediati dai goal mediamente subiti dalla squadra A quando gioca “in casa”.

Tutto chiaro?

Se la risposta è sì, possiamo proseguire e simulare l’esito di una partita, ad esempio Sampdoria – Torino sapendo che:

  • la Sampdoria segna in casa, in media, 2,25 goal a partita
  • il Torino subisce in trasferta, in media, 1,5 goal a partita
  • la Sampdoria subisce in casa, in media, 0,92 goal a partita
  • il Torino segna in trasferta, in media, 1,25 goal a partita

possiamo ipotizzare che il numero di goal segnati dalla Samp, in questo incontro, si distribuisca come una Poisson di media 1,875 e che quelli del Torino come una Poisson con media 1,083 e ottenere così il nostro risultato simulato.

Ovviamente, tale simulazione può essere ripetuta più volte e, ovviamente, il risultato della partita potrà risultare ogni volta differente. Simulando la partita 10.000 volte i tre risultati più frequenti sono stati:

Samp-Torino
Sampdoria – Torino

Per la cronaca, la partita è finita proprio 1-1, un risultato previsto 1.094 volte su 10.000 simulazioni.

Ora, il concetto è che il modello è in grado di prevedere, sulla base di quello che è successo nel passato, il risultato delle partite con un certo grado di probabilità. Probabilità, dunque incertezza. Anche l’1-0 infatti era dato come risultato parimenti probabile. Poi nella vita reale capitano anche avvenimenti come Juventus – Sassuolo 7-0, un evento previsto dal nostro modello solo 12 volte su 10.000 ma pur sempre avveratosi!

Proseguendo con il ragionamento, nulla ci impedisce allora di simulare un intero campionato (o una parte di esso) e di farlo ripetutamente.

È esattamente quello che abbiamo fatto noi: sulla base di quanto successo nelle prime 23 giornate di campionato, abbiamo simulato per 10.000 volte l’esito delle restanti 15 e abbiamo verificato per ognuna la classifica finale.

Chi vincerà il campionato?

Questo il risultato:

Classifica
Probabilità di piazzamento delle diverse squadre. Le celle della tabelle sono tanto più chiare quanto più è probabile la squadra raggiunga la corrispondente posizione in classifica a fine campionato

Secondo il nostro modello, la Juventus e il Napoli si contenderanno il titolo presumibilmente fino alla fine. Su 10.000 campionati simulati i bianconeri sono risultati vincitori in 5.284 occasioni (52,8%). I partenopei, si sono laureati campioni d’Italia in 4.683 occasioni (46,8%).

Assai meno probabile la vittoria di Inter, Lazio e Roma. Squadre che, più verosimilmente, lotteranno per un posto in Champions League.

La stessa Roma, con Sampdoria, Atalanta, Milan e Torino (forse) battaglieranno per l’ingresso in Europa League.

Infine, Crotone, SPAL, Hellas Verona e Benevento saranno protagoniste della lotta per la salvezza anche se a dire il vero per le “Streghe” temiamo ci siano ben poche possibilità di una permanenza in Serie A anche nella prossima stagione.

Di seguito riportiamo anche la distribuzione dei dalle diverse squadre nei 10.000 campionati simulati.

Punti
Distribuzione dei punti stimati secondo il nostro modello

I box-plot (così si chiamano i grafici utilizzati) di Juventus e Napoli sono ovviamente quelli più “elevati” rispetto agli altri. Secondo le nostre simulazioni, le due squadre saranno le vere uniche protagoniste della lotta per la conquista dello scudetto, finendo per distaccare nettamente le altre contendenti al titolo. Da notare che per entrambe il valore mediano dei punti conquistati è pari a 88. Significa che in 5.000 simulazioni su 10.000, partenopei e bianconeri hanno conquistato almeno 88 punti con picchi, rispettivamente di 103 e 104 punti. Guardando i box-plot delle due squadre diventa assolutamente verosimile la previsione di Max Allegri secondo cui il campionato chi vorrà vincere il campionato dovrà fare almeno 90 punti.

Pro e contro del modello

Il modello statistico che abbiamo utilizzato ha ovviamente vantaggi e svantaggi.

Tra i vantaggi, la semplicità di utilizzo:

  • richiede poche informazioni, bastano le statistiche sui goal fatti e subiti in casa e in trasferta
  • richiede poche e realistiche assunzioni a priori
  • è veloce da realizzare e poco oneroso dal punto di vista del calcolo: 10.000 simulazioni vengono portate a termine in pochi secondi

Tra gli svantaggi, la semplicità di utilizzo:

  • no, non è un refuso! Quello che il suo punto di forza principale, diventa paradossalmente anche il suo più grande punto di debolezza. Basandosi su quanto fatto nel recente passato dalle singole squadre, il modello presuppone che tale livello di performance rimanga costante fino alla fine del campionato. Detto in altri termini, non è in grado di prevedere, oggi, se una squadra avrà un calo di prestazioni magari a causa di una serie di infortuni o se, al contrario, a causa di un cambio di panchina, sarà in grado di risollevarsi in classifica.

Disclaimer

Ovviamente il nostro è solo un esperimento. Un gioco fatto con i numeri senza grosse pretese. Per coloro comunque che fossero interessati a questo genere di esperimenti consigliamo la lettura di “Soccermatics” di D. Sumpter (ed. italiana “La matematica del goal”), libro molto carino che tratta in modo semplice e divulgativo questi e altri temi legati al gioco più bello del mondo.

Ciao, alla prossima

Post scriptum

Questa sera si gioca Fiorentina – Juventus e domani si giocherà Napoli – Lazio. Secondo le nostre simulazioni i tre risultati più probabili per le 2 partite sono:

Fio-Juv
Fiorentina-Juventus

           

Nap-Laz
Napoli-Lazio

Ci avremo azzeccato? Ai posteri l’ardua sentenza.

Questo articolo è stato scritto con il supporto di StrataData, di proprietà di Stratagem Technologies. StrataData alimenta StrataBet Sports Trading Platform, oltre che StrataBet Premium Recommendations

Rispondi

Inserisci i tuoi dati qui sotto o clicca su un'icona per effettuare l'accesso:

Logo WordPress.com

Stai commentando usando il tuo account WordPress.com. Chiudi sessione /  Modifica )

Google+ photo

Stai commentando usando il tuo account Google+. Chiudi sessione /  Modifica )

Foto Twitter

Stai commentando usando il tuo account Twitter. Chiudi sessione /  Modifica )

Foto di Facebook

Stai commentando usando il tuo account Facebook. Chiudi sessione /  Modifica )

Connessione a %s...

Create a website or blog at WordPress.com

Su ↑