La google university offre anche corsi di statistica…

Oltre che di virologia, economia, tattica calcistica, tuttologia teorica applicata… e hanno un casino di iscritti…

Su twitter un mio contatto ha segnalato questo messaggio:

Ieri ho fatto una sorta di test in fb. Ho 2 profili da 5000 persone, Ho chiesto cosa stessero leggendo in questo periodo. Al momento hanno risposto in 115.
Casomai ne avessi avuto bisogno, ho visto il livello di curiosità culturale che mi circonda.
Batto la testa nel muro.

Messaggio a cui è stata data anche questa risposta:

150 su mille è il 15%, tenendo conto che molti avranno sicuramente mentito, diciamo che restano circa il 10%. Questo spiega perché gli italiani votano in massa lega e 5s.

Posso dire che il messaggio originale ha un paio di errori metodologici nell’analisi statistica ovvero:

  1. Selezione del campione: il campione è realmente rappresentativo?
  2. Ampiezza del campione: quanti in realtà hanno partecipato?
  3. Errata valutazione della non “risposta”.

Primo errore: uno dei problemi della statistica campionatoria è la scelta del campione dal quale poi dedurre il comportamento della popolazione. Banalmente se faccio la stessa domanda “cosa ne pensa degli immigrati clandestini” durante una riunione di Potere al Popolo otterrò risposte completamente differenti da quelle che otterrei se la domanda la facessi durante una riunione di Forza Nuova. Se sbagli nello scegliere il campione ottieni risultati clamorosamente errati o meglio i risultati son corretti ma è sbagliato estenderli a tutta la popolazione.

Secondo errore: quanti hanno in realtà partecipato al sondaggio, quanti hanno realmente letto la pagina FB? ovviamente la mancanza di tale numero, 5000 iscritti significa poco, inficia tutte le analisi statistiche successive, hai 115 risposte su quante persone?

Terzo errore, in una indagine seria sai quante interviste son state poste e a quali domande la gente, che ha scelto di partecipare, ha risposto  “non so” o non ha voluto rispondere. In questo sondaggio come fai a sapere quanti hanno realmente letto il messaggio e hanno deciso di non rispondere.

Per intenderci una cosa è:

Buongiorno vuole rispondere a qualche domanda sulla politica?

Il politico Tizio sostiene la tesi X; da 1 a 10 quanto è d’accordo con Tizio?
Non saprei

E altra cosa è:
Buongiorno vuole rispondere a qualche domanda sulla politica?
Non ho tempo, scusi.

Il primo caso la risposta la puoi registrare come “non sa/non risponde”, la seconda invece no. Devi considerare la persona come non partecipante.

Chi non ha risposto perché non ha risposto? perché non ha letto alcun libro? perché non interessato al sondaggio?

Quello di usare “le non risposte” e la “non partecipazione” a supporto della propria tesi è un altro errore da evitare. Chiedo a 5000 persone cosa pensano di Tizio. di queste 4500 mi rispondono che non hanno tempo/voglia di parlare con me.  300 me ne dicono corna e peste di Tizio e 200 lo considerano un novello Giulio Cesare. Io poi vado a sostenere che Tizio non viene giudicato positivamente da 4800 persone su 5000, il 96%. E poi magari scopro che Tizio alle elezioni ha carpito il 55% dei consensi (vedi elezioni politiche americane e “sorprendente vittoria” di trump).

Interessante anche il messaggio di risposta; sballa completamente i dati; da dove salta fuori il rapporto 150/1000? fa affermazioni apodittiche “molti avranno sicuramente mentito” e conclude con un bellissimo non sequitur “Questo spiega perché gli italiani votano in massa lega e 5s” o forse sequitur, cioè se questa è l’opposizione…

Divertente comunque che molti che stigmatizzano l’ignoranza della gente “che vota lega e 5s” poi tiri fuori perle che non hanno nulla da invidiare ad un Di Maio o ad un Toninelli qualsiasi…

con un caso singolo non si può confutare una statistica…

Per la statistica un italiano su 200 è molisano, ma io conosco un sacco di persone e nessuna di esse è molisana; ergo il Molise non esiste.
[prova statistica della non esistenza del molise]

Una delle prove della crassa ignoranza matematica si ha quando qualcuno cita una statistica, ad esempio: “il 97% degli italiani non ha il SUV”, qualcun’altro salta su a smentirla citando casi singoli: “ma mio cuGGGino ha tre SUV in garage quindi la statistica è falsa”.

Questo è un pattern che ho visto in un sacco di casi nei media; esce un articolo che parla della bassa qualità dei laureati italiani e della loro crassa ignoranza; allora in qualche giornale troverai l’intervista a quello che ha vinto il nobel con il giornalista che scrive: “vedete la statistica è falsa, qui c’è un laureato che ha vinto il nobel”. Oppure se si parla delle donne che prendono meno degli uomini: “ma barbara berlusconi guadagna più della maggior parte degli italiani pisellomuniti”.

Purtroppo per smentire una statistica occorre avere sotto mano dati, tanti dati, e occorre anche saperli analizzare evitando i tanti errori metodologici che possono falsare una statistica, altrimenti non la si sta smentendo, si stanno solo usando fallacie logiche.

 

Mentire con le statistiche

mentire con le statistiche” era un testo interessante  che mostrava come si potessero utilizzare statistiche, vere e oneste, per sostenere le proprie menzogne usando dei trucchetti per fuorviare nell’interpretazione delle statistiche.

Questo articolo del sole24 ore mi ha portato alla mente quel testo; sia perché vi ho riconosciuto alcune fallacie statistiche, sia perché ho notato alcune tecniche dialettiche per enfatizzare o minimizzare le conclusioni.

Sorgente: Violenza sessuale, il passaporto dei violentatori non c’entra. Ecco i dati – Info Data

Lo suggeriva il buon senso, lo conferma la statistica: non c’è alcuna relazione tra il passaporto e lo stupro. Detto altrimenti, non c’è una nazionalità, un’etnia, la si chiami come si vuole, per cui la violenza sessuale è più frequente che in altre. In altre parole: chi afferma che l’ondata di violenze sessuali che nelle ultime settimane sembra aver colpito il nostro Paese sia una diretta conseguenza dell’immigrazione, ha torto. Così come chi sostiene che invece la colpa ricada soprattutto sugli italiani.

In realtà la stastica conferma il contrario. Vediamo come. Innanzi tutto sarebbe opportuno precisare qual’è la tesi da dimostrare o da confutare; la proporzione fra numero di condannati per stupro di una specifica nazionalità è significativamente diversa a seconda della nazionalità o no?
Se non si fa una domanda precisa ma si fanno insinuazioni fumose è molto difficile arrivare a qualche risposta chiara.

Per questo il raffronto è stato realizzato tenendo conto dell’intera popolazione maschile residente, sia per gli italiani che per gli immigrati. Il risultato è questo:

https://public.tableau.com/views/Violenzasessuale2/Dashboard1?&%3AshowVizHome=no

A un primo sguardo, occorre ammetterlo, il grafico non dice molto. Soprattutto perché il numero di italiani residenti (rappresentato dal rombo in alto a destra) è ovviamente sproporzionato rispetto a quello degli stranieri. E lo stesso vale per la quantità di detenuti. Più che alla distribuzione dei punti sul grafico, però, occorre prestare attenzione alla linea che lo attraversa. Ed avere la pazienza di affrontare un paio di nozioni di statistica, estremamente semplificate con buona pace degli esperti del settore.

il dato italiano siccome è enormemente distante dagli altri è capace di alterare tutti i valori

Il punto, però, è che il valore di R2 è molto vicino a 1. E quindi il modello ha significato. E questo modello dice che c’è una correlazione positiva tra il numero di maschi che compongono una popolazione e il numero di questi individui che ha commesso uno stupro. In altre parole, più persone ci sono e più sono i violentatori tra di loro. Dove siano nati non c’entra nulla. Il Paese d’origine non influenza la “propensione allo stupro”, ammesso che esista qualcosa del genere. O almeno questa è la situazione in Italia secondo i dati a disposizione.

prima conclusione scontata: maggiore è la popolazione maggiore è il numero di stupri; è un fatto scontato. A cosa serve questa conclusione scontata? a far apparire scontato quanto segue. C’è da considerare che il dato italiano visto il numero enorme di italiani rapportati alle persone di altre nazioni è in grado di mettere in ombra la non significatività degli altri dati. Come si può anche vedere eliminando, nell’articolo del sole24ore, il dato italiano.

Per provare a rendere il tutto più intuitivo, Infodata ha provato a rappresentare questi numeri in una mappa. Sulla quale viene rappresentata la percentuale di residenti in Italia in carcere per stupro secondo la nazionalità di origine. I colori più freddi indicano una percentuale più bassa, quelli più caldi un’incidenza più alta. Il filtro “Status” ha la stessa funzione del grafico precedente:

La situazione peggiore riguarda la Mongolia. Il 2,128% dei residenti in Italia è in carcere per stupro. Ma stiamo parlando di una persona su un totale di 47 immigrati dal Paese di Gengis Khan. La mappa suggerisce anche che dovremmo guardarci dagli americani, che stuprano ad un tasso sei volte superiore agli italiani: lo 0,063% dei cittadini Usa che vivono in Italia è detenuto per violenza sessuale, contro lo 0,007% degli italiani. Ha senso dirlo? Il grafico ci spiega che no, non ne ha.

Questo è un esempio di come fra dati giusti si possono dedurre conclusioni sbagliate. La domanda, implicita, è: c’è una significativa differenza nel rapporto fra numero di residenti di nazionalità X e condannati per stupro di nazionalità X? il grafico risponde di sì.
Vabbe’ che per parlare di significatività dovremo anche fissare dei paletti. Prendiamo il caso della mongolia, il numero di residenti mongoli in italia è troppo basso per essere significativo. Ovvero il 2% è un “artefatto” statistico dovuto alla scarsa numerosità del campione di partenza.
La statistica per funzionare bene ha bisogno di “grandi” numeri1; più è ridotto il numero di persone cui si fa statistica maggiore è la possibilità di ottenere risultati falsati dal rumore statistico. Proprio come nel caso della mongolia.

Nemmeno la presenza di alcuni outliers, ovvero di punti sul primo grafico che si allontanano dalla tendenza (e che riguardano Romania, Marocco, Albania e Tunisia), riesce a togliere significato al modello. Il quale afferma che non c’è alcuna relazione tra la nazionalità di una persona e la possibilità che commetta uno stupro. Affermarlo, semplicemente, non ha alcun significato. Almeno se si rimane nel campo del buon senso. E della statistica. Poi ci sono le opinioni, ma su quelle non ci sono dati.

Qui si vede bene come la pubblicazione dello stesso dato in forme differenti forza una interpretazione diversa del dato; scrivere: la percentuale degli italiani è dello 0,007% mentre fra gli americani residenti in italia è dello 0,063%, fa sembrare i due numeri molto piccoli. Mentre dire che ogni centomila italiani abbiamo 7 condannati per stupro contro i 63 americani fa saltare all’occhio il rapporto fra condannati italiani e condannati americani.
Scrivendo la percentuale come rapporto fra condannati per centomila persone, cosa fatta proprio per evitare numeri troppo piccoli, fa balzare agli occhi come il rapporto fra condannati e residenti di nazionalità americana sia nove volte il rapporto fra condannati e residenti italiani. Detto con altre parole: fra gli italiani ci son 7 stupratori ogni centomila maschi, mentre fra gli americani, residenti in italia, ce ne sono 63 ogni centomila maschi. Per fare qualcosa di usabile ho scaricato i dati dell’articolo ed ho eliminato i valori troppo bassi per essere significativi. I filtri che ho adottato sono: numero di detenuti >=10 e numero di residenti >= 2.000.
Il risultato è che fra gli italiani abbiamo 6 stupratori ogni 100.000 residenti in italia, fra i marocchini e gli algerini più di 100 ogni 100.000 abitanti (109 e 102) per essere precisi.
Direi che le differenze sono abbastanza evidenti e significative.

Evidenze mascherate rappresentando i dati mediante numeri “piccoli”.


  1. se prendo 100.000 elettori a caso è molto probabile che abbia un rapporto fra elettori maschi ed elettrici di circa il 49% contro il 51%, la proporzione reale della popolazione italiana. Se prendo due elettori è abbastanza probabile che peschi due persone dello stesso sesso.  Deducendo erroneamente che in italia un sesso non vota. 

Pensare per medie

Leggendo i commenti agli articoli di Stefano Feltri sul fatto quotidiano riguardo alla scelta della facoltà ed al fatto che in media è più facile trovare lavoro come ingegnere che come letterato, ho notato quanto molti ignorino le basi del ragionamento statistico e delle medie statistiche. Emblematico il sonetto di Trilussa (grassetti miei)

LA STATISTICA
di Trilussa

Sai ched’è la statistica? È na’ cosa
che serve pe fà un conto in generale
de la gente che nasce, che sta male,
che more, che va in carcere e che spósa.

Ma pè me la statistica curiosa
è dove c’entra la percentuale,
pè via che, lì,la media è sempre eguale
puro co’ la persona bisognosa.

Me spiego: da li conti che se fanno
seconno le statistiche d’adesso
risurta che te tocca un pollo all’anno:

e, se nun entra nelle spese tue,
t’entra ne la statistica lo stesso
perch’è c’è un antro che ne magna due.

Mostra chiaramente due cose: la prima è che la statistica descrive come mediamente si comporta un grosso numero di persone e, seconda cosa più importante, che l’applicare la statistica a pochi casi o, peggio, ad un solo caso porta a risultati completamente assurdi.

Se considero la popolazione della Sardegna, prendendo per buona la statistica di un pollo all’anno,  posso stimare che in Sardegna si consumino circa un milione e mezzo di polli all’anno. Non posso assolutamente garantire che Tonteddu Konk’e Linna si mangi sicuramente un pollo.  Altro esempio ancora più assurdo, la popolazione italiana è formata da circa il 49% di portatori di pisello e dal 51% di portatrici di patatina. Scelto un individuo a caso questo  è per il 49% uomo e per il 51% donna? Ovviamente no(1) Applicare la statistica ad un caso solo è una cosa senza senso.

E ovviamente un solo caso sporadico non può negare una statistica. Se la statistica dice che, in media, i laureati nella materia X guadagnano Y euro/anno questa affermazione non può essere negata ne dall’affermazione: “mio cuggino è laureato in X e guadagna un gozzillardo di euro al giorno”, ne dall’affermazione “mio cuggino è laureato in X e lavora part time al call center a cinquanta centesimi l’ora. Un caso singolo non nega una statistica(2).

Eppure vedo tanti post dove a colpi di aneddoti “mio cuggino…” si cerca di negare le statistiche. La snumeratezza, o analfabetismo matematico che dir si voglia, è una brutta cosa…

(1) Potrebbe essere se fosse un oggetto quantistico anche se la misura poi causerebbe il collasso della funzione d’onda.

(2) E’ uno dei bias più forti nel caso delle pseudoscienze. Infatti l’affermazione: “l’omeopatia ha la stessa efficacia del placebo” scritta in un forum causerà immancabilmente una risposta: “ma io ho preso il medicinale omeopatico e adesso sto bene”.

ignoranza statistica e demagogia spicciola

fonte: http://www.rainews24.rai.it/it/news.php?newsid=165492

Uomini e donne dovranno avere, a parita’ di ruolo, lo stesso stipendio; e questo entro il 2016. E’ l’impegno assunto dal governo in commissione Lavoro del Senato, accogliendo un ordine del giorno dell’Idv (prima firma Giuliana Carlino), nell’ambito dell’esame del ddl lavoro. L’ordine del giorno e’ stato approvato all’unanimita’. Il documento, approvato dalla commissione con il parere positivo del governo, ricorda i dati diffusi questa settimana in occasione della Giornata europea per la parità retributiva nell’Unione europea, secondo i quali le donne continuano a guadagnare in media il 16,4% in meno degli uomini.

Qualcuno ricordi urgentemente alla commissione che i contratti collettivi nazionali non prevedono alcuna discriminazione della retribuzione per sesso, così come le tariffe degli ordini professionali.  Quell’ODG oltre ad essere demagogia spicciola è purissima fuffa.

Per il resto sarei curioso di sapere come è stato calcolato quel 16.4%, informazione che il lancio di agenzia ripreso da rainews si guarda bene dal dire. Hanno considerato la media della popolazione lavorativa maschile confrontandola con quella femminile ? Hanno confrontato le “inesistenti” differenze fra le retribuzioni tabellari per uomini e per donne previste nei contratti di lavoro ? Hanno confrontato le retribuzioni per tipologia di lavoro ?

Quello è un numero che, senza le informazioni su come è stato ricavato non significa assolutamente niente, ci possono essere molte spiegazioni sensate che non si riducono al piagnisteo “povera donna discriminata”; fra le cause ci possono essere:

– può darsi che gli uomini facciano più straordinari e stiano di più in missione lontano dalla famiglia rispetto alle donne (e logicamente per gli uomini aumenta la parte variabile della retribuzione).

– più donne scelgano il part time rispetto agli uomini (e anche in questo caso la rettribuzione di un tempo pieno è maggiore rispetto a quella di un tempo parziale)

– più donne (per forza o per amore) facciano le casalinghe rispetto agli uomini

Per risolvere i problemi dell’occupazione femminile più che inutili ordini del giorno forse sarebbe meglio migliorare i servizi sociali verso le famiglie, più asili e più facilità di accesso a questi, più strutture di supporto per anziani, che sparare cifre a caso tanto per fare polemichette di infima tacca.