Il paradosso di Simpson

I numeri non sempre parlano da soli. Le statistiche ancora meno. È necessario saperle maneggiare se non si vuole correre il rischio di trarre conclusioni sbagliate.

Uno dei paradossi statistici più ingannevoli è il cosiddetto “paradosso di Simpson” (dal nome dello statistico Edward Hugh Simpson autore nel 1952 di “The Interpretation of Interaction in Contingency Tables”). Esso afferma che, se analizziamo l’incidenza di una variabile all’interno di uno o più gruppi della popolazione complessiva, è talvolta possibile osservare una determinata tendenza, che però scompare o assume segno opposto quando osserviamo l’incidenza di quella variabile all’interno della popolazione nel suo complesso.

Un esempio classico del paradosso, frequentemente citato, è il seguente: negli anni Settanta del XX secolo furono esaminati alla Berkeley University i dati relativi alle ammissioni di maschi e femmine nei vari dipartimenti universitari. Si scoprì che, nel complesso, il tasso di ammissione delle femmine era sensibilmente inferiore a quello dei maschi. Un caso di discriminazione di genere? Non proprio. Analizzando i tassi di ammissione per ogni singolo dipartimento, infatti, si ottenevano risultati del tutto opposti nel senso che, nella maggior parte dei casi, le femmine riportavano un tasso di ammissione più elevato di quello dei maschi. Come si spiega l’arcano? Semplicemente con il fatto che le donne tendevano a fare domanda nei dipartimenti che ammettevano meno persone nel complesso, e questa variabile influenzava l’esito aggregato, invertendone la tendenza complessiva.

Un fenomeno simile si è ottenuto recentemente confrontando il numero dei decessi per Covid nei non vaccinati con quello dei vaccinati.

In Inghilterra, ad esempio, secondo quanto riferito da «L’Internazionale», nei rapporti sui decessi di persone positive alla variante delta del covid-19 si osserva che:

– Nella popolazione con meno di cinquant’anni, la percentuale di decessi è circa 1,8 volte più elevata tra i non vaccinati rispetto ai vaccinati;

– nella popolazione con più di cinquant’anni, la percentuale di decessi è circa 6,3 volte più elevata tra i non vaccinati rispetto ai vaccinati;

– invece, nella popolazione presa nel suo complesso, la percentuale di decessi è circa 1,3 volte meno elevata tra i non vaccinati rispetto ai vaccinati.

La spiegazione di questo risultato paradossale sta nel fatto che:

nel periodo preso in esame, la percentuale di persone vaccinate è molto diversa tra i maggiori di cinquant’anni (circa il 95 per cento secondo il servizio sanitario britannico) e i minori di cinquant’anni (circa il 50 per cento).

Di conseguenza una grande proporzione delle persone non vaccinate ha meno di cinquant’anni ed evidenzia un tasso di mortalità basso (a causa dell’età). Di contro, una grande proporzione delle persone vaccinate ha più di cinquant’anni ed evidenzia un tasso di mortalità più elevato (anche se fortemente ridotto dal vaccino). Questo spiega come mai, considerando la popolazione nel complesso, la percentuale di decessi tra i non vaccinati possa risultare inferiore a quella dei vaccinati.

Una lezione che possiamo ricavare da questo paradosso è che anche i dati possono essere soggetti all’effetto framing: in base al modo di presentare i numeri, si possono trarre risultati del tutto opposti, ma entrambi statisticamente corretti. Manipolatori, propagandisti e persuasori possono, dunque, avvalersi di questo effetto per offrire la versione dei fatti più confacente ai propri interessi o alla propria visione del mondo. Così, nel caso del tasso di vaccinazione appena citato, distorcere i dati in base alla selezione operata da un gruppo piuttosto che da un altro o dalla popolazione nel suo complesso può portare acqua alla causa dei vaccinisti o degli antivaccinisti.

Questo bias della selezione può generare situazioni che, se non interpretate correttamente, possono causare gravi errori diagnostici o di previsione.

Un esempio classico è quello dello statistico Abraham Wald, che durante la Seconda guerra mondiale, fu chiamato a osservare gli aerei tornati dai combattimenti per cercare di comprenderne i punti deboli. Egli notò che gli aerei che tornavano tendevano a essere colpiti in determinati punti. In modo controintuitivo, consigliò quindi di rafforzare le parti che erano state meno colpite dai proiettili. Questo perché quei punti erano le parti più critiche, perché quando venivano colpiti gli aerei avevano meno probabilità di ritornare dal combattimento.

Insomma, se selezionare informazioni e dati è praticamente inevitabile, cerchiamo di fare in modo che tale selezione conduca a esiti proficui e non venga adoperata per sostenere interessi di parte.