8 min read

E se potessimo misurare le prestazioni in base al valore dell'avversario?

Un primo approccio quantitativo per aggiungere sfumature al valore di una performance
E se potessimo misurare le prestazioni in base al valore dell'avversario?
Davide e Golia - dipinto di Tiziano

Se sei come me, ti capita spesso di sentire la necessità di andare oltre al risultato. Di capire se la prestazione di una squadra sia stata più o meno in linea con le previsioni dato il livello dell'opponente.

Ok, hanno vinto 2 a 0 e la storiella post partita segue la linea del risultato ma qual è stato il valore reale della prestazione? Gli expected goals aiutano ma volume prodotto e solidità difensiva non possono essere giudicate a prescindere dalla difficoltà dell'incontro.

E quindi?

Quindi proverò a misurare la prestazione di una squadra tenendo in considerazione il livello del collettivo che si è trovata di fronte.

Come?

La tabella colorata che trovi qui sotto è un primo indizio.

Nei paragrafi seguenti entrerò nel dettaglio. Spiegherò il modo in cui sono arrivato a calcolare quella percentuale che trovi in verde, grigio o rosso alla sinistra (per la squadra di casa) e alla destra (per la squadra fuori casa) della tabella e ti mostrerò come l'indice di rendimento può aiutarti ad espandere il contesto dietro ad un risultato.

Se sei soltanto interessato al risultato finale, passa pure alla sezione "L'indice di rendimento (in breve). Non soprenderti però se prima o poi ti ritroverai qui a cercare di capire da dove arrivino quei numerini colorati.

Come quantificare le previsioni

Per ogni partita le previsioni nascono da fattore campo ma anche e soprattutto dal diverso livello delle due squadre. Dalla Lazio che ospita il Lecce possiamo attenderci di partire favorita ma come possiamo quantificare la sensazione che tutti abbiamo?

Ci sono due principali modi per creare dei ratings adatti a stimare il livello di giocatori o squadre in un contesto competitivo. Ratings basati su modelli Elo e ratings basati su simulazioni Montecarlo.

I modelli Elo si basano sull'idea che la probabilità di vincere una partita dipenda dalla differenza tra il livello dei giocatori o delle due squadre. I ratings vengono aggiornati dopo ogni partita secondo una formula che tiene conto delle previsioni (in base al livello delle squadre) e del risultato finale.

Come Cambia la valutazione Elo di partita in partita

La differenza di rating tra le due squadre serve come predittore per l’esito di una partita. Dopo ogni match, il rating Elo delle due squadre cambia a seconda del risultato:

  • Se la squadra con il rating più alto vince, verranno scambiati meno punti.
  • Se vince la squadra con il rating più alto, pochi punti vengono scambiati.
  • Se invece vince la squadra con il rating più basso, si scambiano molti punti.
  • In caso di pareggio, la squadra con il rating più basso ottiene alcuni punti.
  • Più ampia è la vittoria, più punti vengono scambiati.

I ratings dei modelli Elo sono quindi il prodotto di due fondamenti:

  1. I punti guadagnati da una squadra sono punti persi dall'altra.
  2. A lungo termine il rating si aggiusterà fino a riflettere il livello reale della squadra (guadagnando o perdendo punti di partita in partita).

Se una squadra è più forte di quanto il suo rating indichi, guadagnerà più punti nelle partite successive, finché il suo Elo non corrisponderà alla sua vera forza.

Qui una guida completa da parte di Opta su funzionamento ed utilizzo del loro modello Elo.

I modelli Elo sono generalmente (più) facili da implementare, ma hanno alcune limitazioni. Utilizzano solo informazioni sulla vittoria e la sconfitta e non considerano la differenza di punteggio, assumono che le valutazioni seguano una distribuzione normale e che il livello di abilità sia costante nel tempo, e non tengono conto di fattori esterni come infortuni o affaticamento.

Le simulazioni Monte Carlo si basano invece sull'idea che i ratings di giocatori o squadre siano variabili casuali che seguono una certa distribuzione, come una distribuzione gaussiana o beta. Vengono stimati generando molteplici possibili esiti delle partite utilizzando la distribuzione e le regole del gioco, per poi calcolare la media dei risultati.

Rispetto ai modelli ELO, le simulazioni Monte Carlo sono più flessibili e realistiche, ma sono anche più complesse e intensive dal punto di vista computazionale in quanto capaci di incorporare più informazioni (come la differenza di punteggio, la varianza delle valutazioni, le variazioni del livello di abilità nel tempo e gli effetti di fattori esterni).

Dati i significativi limiti di budget del progetto (🥲), per le previsioni utilizzate nell'indice di rendimento mi sono affidato al modello Elo di Opta.

Un ratings completo di tutte le squadre partecipanti alle varie competizioni mondiali è una miniera di risorse che può essere spremuta in diverse maniere. Per creare ed aggiornare dei Power Rankings, per calcolare le probabilità di ogni squadra di finire in una specifica posizione – ad oggi la classifica e i ratings della Serie A fanno sì che l'Inter abbia l'81.4% di probabilità di vincere il campionato, per esempio – o generare quelle probabilità pre-match che calzano perfettamente con la nostra necessità di quantificare il nostro spirito predittivo (e che rappresentano i primi ingredienti per il nostro indice di rendimento):

  • Probabilità di vittoria della squadra A pre-match
    Dati fattore campo e livello delle due squadre, potendo rigiocare la partita 100 volte, in quanti casi prevediamo che la squadra A uscirebbe vincitrice?
  • Probabilità di vittoria della squadra B pre-match
    Dati fattore campo e livello delle due squadre, potendo rigiocare la partita 100 volte, in quanti casi prevediamo che la squadra B uscirebbe vincitrice?
  • Probabilità di pareggio pre-match
    Dati fattore campo e livello delle due squadre, potendo rigiocare la partita 100 volte, in quanti casi prevediamo che terminerebbe con un pareggio?

Come quantificare la performance del campo

Se modelli Elo o simulazioni Montecarlo possano aiutarci a stimare le diverse forze in gioco, la produzione delle due squadre in termini di expected goals può rappresentare la base per quantificare il valore di una performance [1]. Come? Assumendo che il numero di gol realizzato da una squadra in una partita segua una distribuzione di Poisson, con il numero di expected goals come media di questa distribuzione.

Dato il valore xG delle due squadre, possiamo calcolare per ciascuna la probabilità di segnare n numero di gol (0, 1, 2, 3 fino a un limite fissato a 10 in questo caso).

Lazio Lecce Poisson distribution 2.png

Da qui ottenere la probabilità dei 3 possibili scenari (vittoria squadra A, vittoria squadra B o pareggio) diventa piuttosto semplice.

Per ogni possibile numero di gol segnati dalla squadra A, consideriamo la probabilità che la squadra B ne segni un numero superiore, inferiore o uguale. La somma delle probabilità emerse da ciascuna combinazione ci porta a quei 3 valori che andremo poi ad utilizzare nel nostro indice di rendimento:

  • Probabilità di vittoria della squadra A post-match
    Se potessimo rigiocare la partita 100 volte creando e concedendo lo stesso volume di xG, in quanti casi la squadra A uscirebbe vincitrice?
  • Probabilità di vittoria della squadra B post-match
    Se potessimo rigiocare la partita 100 volte creando e concedendo lo stesso volume di xG, in quanti casi la squadra B uscirebbe vincitrice?
  • Probabilità di pareggio post-match
    Se potessimo rigiocare la partita 100 volte creando e concedendo lo stesso volume di xG, in quanti casi la partita terminerebbe con un pareggio?

  1. Nella creazione di questa prima versione dell'indice di rendimento, ho adottato l'approccio che utilizza gli expected goals e la distribuzione di Poisson. Ma le possibilità sono molte. Probabilità di vittoria e pareggio potrebbero essere generate utilizzando valori di Expected Threat o input alternativi prodotti da modelli che quantificano il valore di un maggior numero di eventi. Un'alternativa altrettanto valida potrebbe essere rappresentata da distribuzioni binomiali basate sui tiri e conversione. ↩︎

L'indice di rendimento (in breve)

Eccoci al dunque. Abbiamo le nostre probabilità di vittoria (e pareggio) pre-match basate sui ratings del modello Elo di Opta (a quantificare le previsioni) e abbiamo le probabilità di vittoria post-match ottenute modellando i diversi scenari che si sarebbero potuti verificare data la produzione delle due squadre (expected goals anche in questo caso forniti da Opta).

Ora non resta che confrontare le probabilità post-match con quelle pre-match per scoprire quali squadre sono andate al di sopra o al di sotto delle previsioni. Per ora il nostro indice verrà calcolato come la differenza tra le due probabilità di vittoria (post-match vs pre-match) ma in futuro ci sarà la possibilità di integrare anche la differenza tra le due probabilità di pareggio.

Torniamo quindi a Lazio - Lecce. Qui le previsioni basate su fattore campo e livello delle due squadre (ratings Elo):

  • Probabilità di vittoria Lazio pre-match: 55%
  • Probabilità di vittoria Lecce pre-match: 19%
  • Probabilità di pareggio pre-match: 26%

Qui invece le probabilità di vittoria e pareggio dato ciò che le due squadre hanno prodotto in campo:

  • Probabilità di vittoria Lazio post-match: 29%
  • Probabilità di vittoria Lecce post-match: 40% (❗)
  • Probabilità di pareggio post-match: 31%

In questo caso l'indice di rendimento va ad aggiungere sofferenza alla tifoseria leccese certificando una performance superiore alle previsioni nonostante i 0 punti raccolti.

All'Olimpico il Lecce non solo ha registrato un indice di rendimento positivo (+21%) ma ha anche superato la squadra di casa in termini di probabilità di vittoria post-match (40% vs 29%).

Attenzione. L'indice di rendimento non è una verità assoluta. Le limitazioni sono presenti sia sul lato delle previsioni (come evidenziato sopra relativamente ai modelli Elo) che da quello della performance (sappiamo come sia difficile estrapolare i singoli eventi dal contesto della partita oltre al fatto che, a volte, la pericolosità offensiva non si traduce in tiri e, quindi, expected goals).

L'obiettivo – per l'indice di rendimento e per l'intero progetto di Calcio Datato – è andare oltre. È utilizzare i dati e la loro interpretazione per strofinare via strati superficiali che coprono informazioni certamente imperfette ma anche un po' più ricche, più vicine alla verità del campo. Se il risultato è l'insegna lucente impressa su una partita, l'indice di rendimento può portarci un po' più in là. Può offrirsi come elemento quantitativo capace di andare oltre la superficialità aleatoria di pochi, pochissimi eventi.

Di settimana in settimana, lo troverete all'inizio di ogni edizione. Fatene buon uso.

Di cosa parliamo quando parliamo di expected threat?
Un modello per misurare la pericolosità offensiva oltre a tiri e passaggi chiave
Eriksen nell’Inter di Conte
Era lecito aspettarsi qualcosa in più dal danese?