Mentire con le statistiche

mentire con le statistiche” era un testo interessante  che mostrava come si potessero utilizzare statistiche, vere e oneste, per sostenere le proprie menzogne usando dei trucchetti per fuorviare nell’interpretazione delle statistiche.

Questo articolo del sole24 ore mi ha portato alla mente quel testo; sia perché vi ho riconosciuto alcune fallacie statistiche, sia perché ho notato alcune tecniche dialettiche per enfatizzare o minimizzare le conclusioni.

Sorgente: Violenza sessuale, il passaporto dei violentatori non c’entra. Ecco i dati – Info Data

Lo suggeriva il buon senso, lo conferma la statistica: non c’è alcuna relazione tra il passaporto e lo stupro. Detto altrimenti, non c’è una nazionalità, un’etnia, la si chiami come si vuole, per cui la violenza sessuale è più frequente che in altre. In altre parole: chi afferma che l’ondata di violenze sessuali che nelle ultime settimane sembra aver colpito il nostro Paese sia una diretta conseguenza dell’immigrazione, ha torto. Così come chi sostiene che invece la colpa ricada soprattutto sugli italiani.

In realtà la stastica conferma il contrario. Vediamo come. Innanzi tutto sarebbe opportuno precisare qual’è la tesi da dimostrare o da confutare; la proporzione fra numero di condannati per stupro di una specifica nazionalità è significativamente diversa a seconda della nazionalità o no?
Se non si fa una domanda precisa ma si fanno insinuazioni fumose è molto difficile arrivare a qualche risposta chiara.

Per questo il raffronto è stato realizzato tenendo conto dell’intera popolazione maschile residente, sia per gli italiani che per gli immigrati. Il risultato è questo:

https://public.tableau.com/views/Violenzasessuale2/Dashboard1?&%3AshowVizHome=no

A un primo sguardo, occorre ammetterlo, il grafico non dice molto. Soprattutto perché il numero di italiani residenti (rappresentato dal rombo in alto a destra) è ovviamente sproporzionato rispetto a quello degli stranieri. E lo stesso vale per la quantità di detenuti. Più che alla distribuzione dei punti sul grafico, però, occorre prestare attenzione alla linea che lo attraversa. Ed avere la pazienza di affrontare un paio di nozioni di statistica, estremamente semplificate con buona pace degli esperti del settore.

il dato italiano siccome è enormemente distante dagli altri è capace di alterare tutti i valori

Il punto, però, è che il valore di R2 è molto vicino a 1. E quindi il modello ha significato. E questo modello dice che c’è una correlazione positiva tra il numero di maschi che compongono una popolazione e il numero di questi individui che ha commesso uno stupro. In altre parole, più persone ci sono e più sono i violentatori tra di loro. Dove siano nati non c’entra nulla. Il Paese d’origine non influenza la “propensione allo stupro”, ammesso che esista qualcosa del genere. O almeno questa è la situazione in Italia secondo i dati a disposizione.

prima conclusione scontata: maggiore è la popolazione maggiore è il numero di stupri; è un fatto scontato. A cosa serve questa conclusione scontata? a far apparire scontato quanto segue. C’è da considerare che il dato italiano visto il numero enorme di italiani rapportati alle persone di altre nazioni è in grado di mettere in ombra la non significatività degli altri dati. Come si può anche vedere eliminando, nell’articolo del sole24ore, il dato italiano.

Per provare a rendere il tutto più intuitivo, Infodata ha provato a rappresentare questi numeri in una mappa. Sulla quale viene rappresentata la percentuale di residenti in Italia in carcere per stupro secondo la nazionalità di origine. I colori più freddi indicano una percentuale più bassa, quelli più caldi un’incidenza più alta. Il filtro “Status” ha la stessa funzione del grafico precedente:

La situazione peggiore riguarda la Mongolia. Il 2,128% dei residenti in Italia è in carcere per stupro. Ma stiamo parlando di una persona su un totale di 47 immigrati dal Paese di Gengis Khan. La mappa suggerisce anche che dovremmo guardarci dagli americani, che stuprano ad un tasso sei volte superiore agli italiani: lo 0,063% dei cittadini Usa che vivono in Italia è detenuto per violenza sessuale, contro lo 0,007% degli italiani. Ha senso dirlo? Il grafico ci spiega che no, non ne ha.

Questo è un esempio di come fra dati giusti si possono dedurre conclusioni sbagliate. La domanda, implicita, è: c’è una significativa differenza nel rapporto fra numero di residenti di nazionalità X e condannati per stupro di nazionalità X? il grafico risponde di sì.
Vabbe’ che per parlare di significatività dovremo anche fissare dei paletti. Prendiamo il caso della mongolia, il numero di residenti mongoli in italia è troppo basso per essere significativo. Ovvero il 2% è un “artefatto” statistico dovuto alla scarsa numerosità del campione di partenza.
La statistica per funzionare bene ha bisogno di “grandi” numeri1; più è ridotto il numero di persone cui si fa statistica maggiore è la possibilità di ottenere risultati falsati dal rumore statistico. Proprio come nel caso della mongolia.

Nemmeno la presenza di alcuni outliers, ovvero di punti sul primo grafico che si allontanano dalla tendenza (e che riguardano Romania, Marocco, Albania e Tunisia), riesce a togliere significato al modello. Il quale afferma che non c’è alcuna relazione tra la nazionalità di una persona e la possibilità che commetta uno stupro. Affermarlo, semplicemente, non ha alcun significato. Almeno se si rimane nel campo del buon senso. E della statistica. Poi ci sono le opinioni, ma su quelle non ci sono dati.

Qui si vede bene come la pubblicazione dello stesso dato in forme differenti forza una interpretazione diversa del dato; scrivere: la percentuale degli italiani è dello 0,007% mentre fra gli americani residenti in italia è dello 0,063%, fa sembrare i due numeri molto piccoli. Mentre dire che ogni centomila italiani abbiamo 7 condannati per stupro contro i 63 americani fa saltare all’occhio il rapporto fra condannati italiani e condannati americani.
Scrivendo la percentuale come rapporto fra condannati per centomila persone, cosa fatta proprio per evitare numeri troppo piccoli, fa balzare agli occhi come il rapporto fra condannati e residenti di nazionalità americana sia nove volte il rapporto fra condannati e residenti italiani. Detto con altre parole: fra gli italiani ci son 7 stupratori ogni centomila maschi, mentre fra gli americani, residenti in italia, ce ne sono 63 ogni centomila maschi. Per fare qualcosa di usabile ho scaricato i dati dell’articolo ed ho eliminato i valori troppo bassi per essere significativi. I filtri che ho adottato sono: numero di detenuti >=10 e numero di residenti >= 2.000.
Il risultato è che fra gli italiani abbiamo 6 stupratori ogni 100.000 residenti in italia, fra i marocchini e gli algerini più di 100 ogni 100.000 abitanti (109 e 102) per essere precisi.
Direi che le differenze sono abbastanza evidenti e significative.

Evidenze mascherate rappresentando i dati mediante numeri “piccoli”.


  1. se prendo 100.000 elettori a caso è molto probabile che abbia un rapporto fra elettori maschi ed elettrici di circa il 49% contro il 51%, la proporzione reale della popolazione italiana. Se prendo due elettori è abbastanza probabile che peschi due persone dello stesso sesso.  Deducendo erroneamente che in italia un sesso non vota. 
Annunci

12 pensieri su “Mentire con le statistiche

  1. grazie alla brillante scuola italiana, che continua a considerare essenziale dal punto di vista formativo far sorbire agli studenti una storiella dalla profondità di un romanzo harmony, ma non ad insegnare una quantità non da terzo mondo di matematica, la gran parte della gente, di statistica non capisce una mazza.

    le statistiche raramente vengono citate in un contesto in cui ha senso citarle. il classico è “in media ci sono X morti per Y in un anno, come è possibile che a febbraio ci siano già stati X*0.9 morti?” come X morti in un anno contenesse automaticamente ed indiscutibilmente la diluizione X/12 morti al mese. come se una media K calcolata in cento anni implicasse automaticamente grosso modo K ogni anno. perché la deviazione standard nessuno si è posto il problema di guardare cosa significa. poi c’è la statistica riportata ad un campione di misura differente (ho fatto la media su cinquanta scelti a caso a codroipo e la ribalto su tutti i sessanta milioni dell’intera nazione o, alternativamente, ho una statistica su sala nazionale, e la ribalto sulla popolazione del paesello di montagna con trentasei abitanti). e poi ci sono tutti quei trucchi di correlazione inversa (il 98% di quelli che hanno la caratteristica X hanno anche la caratteristica Y, quindi evidentemente Y dipende da X — al netto della differenza tra correlazione e causalità — ma X viene scelto tra le caratteristiche che appartengono al 98% della popolazione generale).

    insomma. leggo statistica, e il mio cervello traduce istantaneamente in “tutte cazzate”.

    Liked by 1 persona

    • Più che quello che nasconde a me ha stupito che nonostante i dati e gli indicatori siano stati calcolati correttamente, l’interpretazione sia l’esatto contrario di quanto risultava.

      Mi piace

    • la statistica non nasconde nulla. se fai una statistica vera e non una raccolta di congetture, hai tutti i dati che ti servono per valutarne il significato. il punto è che i vari dati a contorno rimangono nascosti se non ignorati, per un qualcosa che va tra una scelta cosciente e semplice ignoranza. se, a fronte di un titolo “la media del fenomeno X è Y, ma succede Z”, il commento tipico fosse “aspetta, la media è X, ma quanto è la deviazione standard? quanto è grosso il campione? quanto è larga la diluizione?”, invece che “aaargggh GOMBLODDO!” sarebbe certamente un mondo migliore.

      Mi piace

  2. E’ possibile che stiamo considerando una correlazione (nazionalità) come una causalità (stupratore), quando in realtà potrebbero pesare di più altri elementi (tipo reddito ed istruzione, criminalità nell’area, reati puniti vs reati nemmeno denunciati)?

    Mi piace

    • correlazione non è casualità, questo per me è scontato. Quello che le statistiche mostrano è che ci son significative differenze nel rapporto fra persone della nazione X e condannati per stupro provenienti da X. Lo spiegare il perché è materia da sociologi, ma c’è una differenza fra il dire: “esiste questa differenza per i motivi X, Y e Z”, oppure esiste ma per il motivo A è solo un caso, ed il negare l’esistenza del fatto.
      L’equazione “straniero = stupratore” è una stronzata alla salvini ma è un errore arrivare a negare la realtà per smentirla.

      Mi piace

      • Siamo partiti da

        La statistica per funzionare bene ha bisogno di “grandi” numeri; più è ridotto il numero di persone cui si fa statistica maggiore è la possibilità di ottenere risultati falsati dal rumore statistico.”

        Poi però prendiamo arbitrariamente ” numero di detenuti >=10 e numero di residenti >= 2.000″; stiamo già “torturando i dati”, perché son due criteri soggettivi.

        Quel che mi convince poco è che le nazionalità diverse da “italiana” sono estremamente ridotte in termini di residenti, tanto che ad occhio dal grafico non si riuscirebbe nemmeno a capire quanti sono. Ad esempio i rumeni, che sono la seconda nazionalità per numero di residenti, sono meno del 2% rispetto ai residenti italiani, stiamo paragonando un campione enorme con tanti campioni enormemente più piccoli.
        Ora, io non so nulla di statistica, ma in genere ogni misurazione presuppone dei margini di errore, e quando questi margini sono troppo grandi la misurazione è considerata inaffidabile. In questo caso, se paragoniamo 27 milioni con 1/2 milione o 2.000, è intuitivo pensare che anche l’errore aumenti di ordini di grandezza tanto più piccolo diventa il campione, quindi alla fine è sensato fare paragoni del genere con sottogruppi così piccoli? Capisco anche che visti i dati è la migliore approssimazione possibile, ma anche qui, la cosa non è alla fine troppo approssimata per essere affidabile?

        Mi piace

        • Poi però prendiamo arbitrariamente ” numero di detenuti >=10 e numero di residenti >= 2.000″; stiamo già “torturando i dati”, perché son due criteri soggettivi.

          come hai scritto tu perché una statistica abbia un senso devi prendere numeri grandi; se consideri numeri piccoli non hai risultati attendibili, ad esempio il risultato della mongolia citato nell’articolo originale.

          Capisco anche che visti i dati è la migliore approssimazione possibile, ma anche qui, la cosa non è alla fine troppo approssimata per essere affidabile?
          stai considerando dei rapporti, non dei valori assoluti. Il mascheramento dei risultati dovuto al numero di abitanti dell’italia confrontato con i residenti di altre nazioni è evidente nel caso del primo diagramma della cartina.
          Comunque se eliminiamo il dato dell’italia e controlliamo solo il rapporto per i non italiani, la risultanza rimane: a fronte di un rapporto condannati ogni 100.000 persone superiore a 100 per algeria e tunisia c’è il rapporto di 12 dei filippini, pur essendo come numero comparabile con il numero di tunisini e di algerini.
          La statistica è una brutta bestia da gestire.

          Mi piace

  3. Ho scaricato la tabella ed impostato i dati in maniera differente.
    Gli stranieri sono circa il 7% dei residenti, con circa il 30% dei detenuti, uno squilibrio evidente. Messa così farebbe venire il panico.
    Però da un altro punto di vista, gli stranieri detenuti sono lo 0,04% degli stranieri residenti, in pratica uno ogni 2500. Detta così è un po’ meno allarmante.

    Mi piace

Rispondi

Inserisci i tuoi dati qui sotto o clicca su un'icona per effettuare l'accesso:

Logo WordPress.com

Stai commentando usando il tuo account WordPress.com. Chiudi sessione / Modifica )

Foto Twitter

Stai commentando usando il tuo account Twitter. Chiudi sessione / Modifica )

Foto di Facebook

Stai commentando usando il tuo account Facebook. Chiudi sessione / Modifica )

Google+ photo

Stai commentando usando il tuo account Google+. Chiudi sessione / Modifica )

Connessione a %s...