Storia della statistica

La statistica è una scienza relativamente giovane il cui contenuto non è ancora visibile in modo corretto perché spesso viene confusa con le statistiche: dati, tabelle, grafici, indici, medie. In effetti, essa è presente in tutte le scienze e rappresenta uno strumento essenziale per la scoperta di leggi e relazioni tra fenomeni. Intervenendo in tutte le situazioni nelle quali occorre assumere decisioni in condizioni di incertezza, la statistica si configura come un momento importante della ricerca scientifica, della pianificazione economica e dell'azione politica.

L'evoluzione storica della statistica nasconde due anime che si ritrovano sia nella didattica e nella ricerca sia nel pensare comune dei non specialisti e, quindi, nel linguaggio dei mass-media.

Etimologia

L'etimologia della parola "statistica" deriva dal vocabolo italiano "stato" e fa riferimento, nella quasi totalità dei linguaggi europei, alla constatazione per cui le prime informazioni su fenomeni reali sono state raccolte ed organizzate ad opera degli organismi statali che ne erano anche i principali utilizzatori. Esistono altre versioni circa la derivazione etimologica di "Statistica", come quella che fa riferimento a status, per indicare che tale scienza esamina la situazione contingente della realtà oppure al latino statera (=bilancia), al tedesco Stadt (=città). Anche se convincenti sul piano logico-concettuale, queste derivazioni non trovano riscontri storici obiettivi se paragonati all'uso crescente del termine "Statistica" inteso come raccolta di informazioni organizzate e gestite dallo "Stato". La prima apparizione del vocabolo "statistica" in questa accezione sembra essere quella dell'italiano Girolamo Ghilini che, tra il 1666 e il 1668, dà alle stampe il Ristretto della civile, politica, statistica e militare scienza^[1].

Statistica come raccolta di dati

La prima anima della statistica è connaturata all'homo sapiens che prende coscienza del mondo e dei suoi simili e che, nella lotta alla sopravvivenza, elabora comportamenti ottimali per nutrirsi, difendersi e riprodursi. Tali strategie alternano sconfitte e successi ma, grazie ad approssimazioni successive, permettono il diffondersi di convinzioni, usi e costumi e, alla fine, di conoscenza, scienza e cultura. Quando tali convinzioni si codificano nella vita del clan, della tribù, di un popolo o di una nazione, nascono le regole di comportamento e, quindi, la legge. Questa esigenza conoscitiva cresce con lo sviluppo delle relazioni tra popoli.

Con la nascita dei grandi Stati europei, si attribuisce all'analisi statistica dei fenomeni collettivi un interesse pubblico che spinge progressivamente le nazioni occidentali a dotarsi di Istituti "centrali" di Statistica, deputati per legge alla raccolta, organizzazione e diffusione di dati sulla popolazione, sulle abitazioni, sulle risorse economiche e su tutti gli aspetti rilevanti della vita collettiva di una nazione, di una Comunità di stati (Unione europea) o dell'intero pianeta (Nazioni Unite).

Oggi, gli organismi pubblici che istituzionalmente raccolgono e diffondono informazioni statistiche sono innumerevoli ed agiscono secondo una gerarchia di competenze che individua nell'Ente locale la sede prioritaria di raccolta del dato elementare, mentre la verifica, l'aggregazione e la pubblicazione sono di competenza dell'Ente centrale (per l'Italia è l'ISTAT).

La formalizzazione matematica della statistica

La seconda anima della Statistica nasce da una constatazione differente che solo da pochi secoli ha trovato una formalizzazione compiuta. Di fronte alla realtà che muta, vi sono risultati che meritano più fiducia di altri perché si ripetono con maggiore regolarità. Ciò viene percepito soprattutto in rapporto al clima e all'alternanza delle stagioni ma riguarda anche i raccolti agricoli, le malattie, le vicende umane, ecc. In tali contesti, la mente umana registra regolarità senza certezze, convinzioni non sicurissime, ripetizioni di eventi non sempre garantiti da un esito univoco. Da un lato ciò genera paura e impone cautele contro i rischi (la mutualità prima e le assicurazioni poi), dall'altro sollecita il gioco e la scommessa (inventando artificialmente l'aleatorietà nel risultato tramite semplici strumenti: palline, dadi, carte).

Pur essendo ben presente nella storia e nella cultura sin dai primordi della civiltà, la probabilità diventa un concetto importante e ben formalizzato solo a partire dal secolo XVIII anche se, già in precedenza e grazie soprattutto a Galileo, Pascal e Fermat, si può intravedere il sorgere di un nuovo modo di applicare la matematica ai giochi, cioè quella nuova disciplina che sarà poi denominata Calcolo delle probabilità. Si dovrà però aspettare ancora altri duecento anni perché diventi palese la connessione tra le osservazioni incerte e la possibilità di prevederle, controllarle e simularle. Così, all'inizio del Novecento, nasce e si diffonde una impostazione verso lo studio della realtà che trova nell'inferenza il suo nucleo centrale e negli schemi probabilistici degli strumenti utili ed essenziali per assumere decisioni coerenti.

La saldatura tra queste due anime della statistica avviene con molto ritardo e solo quando, di fronte alla natura sempre più sperimentale della conoscenza, ci si pone il problema della validità delle ipotesi.

Il metodo statistico diviene nei fatti la metodologia della ricerca scientifica e la prassi nelle analisi dei risultati di laboratorio ancor prima di essere riconosciuto come strumento di indagine autonomo.

Oggi, anche in conseguenza dei veloci mutamenti tecnologici ed informatici, si assiste ad un costante tentativo di utilizzare la statistica a sostegno di tesi predefinite, cioè come uno strumento di convincimento ideologico.

Cronologia

1400-1499

1494: Luca Pacioli formula nel suo libro Summa de arithmetica, geometria, proportioni et proportionalita il quesito noto come il problema dei punti (o delle parti), risolto un secolo e mezzo dopo, nel 1654, da Pascal e de Fermat. Gli errori nella sua soluzione vengono identificati quasi mezzo secolo dopo, nel 1539, da Girolamo Cardano.

1500-1599

1539: Girolamo Cardano dimostra l'errata argomentazione di Pacioli nel problema dei punti
1564: Girolamo Cardano scrive Liber de ludo aleae, una guida pratica per giocatori d'azzardo, contenente alcune considerazioni teoriche fondamentali. Tale libro venne pubblicato postumo nel 1663.

1600-1699

1613-1623: Galileo Galilei scrive il saggio Sopra le scoperte dei dadi
1654: in uno scambio epistolare tra Blaise Pascal e Pierre de Fermat vengono gettate le basi della moderna teoria delle probabilità analizzando il cosiddetto problema dei punti
1657: Christiaan Huygens pubblica De ratiociniis de ludo aleae, il primo libro sulla teoria delle probabilità, ripreso e commentato da Jakob Bernoulli in Ars conjectandi (pubblicato postumo nel 1713).
1663: pubblicazione postuma del Liber de ludo aleae di Girolamo Cardano

1700-1799

1708: Pierre de Montmort scrive Essai d'analyse sur le jeux de hasard ("Saggio di analisi sul gioco d'azzardo").
1709: Nikolaus Bernoulli pubblica De usu artis conjectandi in jure, affrondando tra l'altro il problema della speranza di vita
1713: viene pubblicato postumo Ars conjectandi di Jakob Bernoulli dove tra l'altro viene formulato il primo teorema limite, ovvero la legge dei grandi numeri.
1760: un matematico svizzero, Johann Heinrich Lambert, fa uso di grafici di elevata qualità nella sua opera Photometria.
1764: viene pubblicato postumo Essay Towards Solving a Problem in the Doctrine of Chances, dove Thomas Bayes formula il fondamentale teorema di Bayes
1782: August Friedrich Wilhelm Crome, economista tedesco, utilizza nella sua Producten-Karte von Europa quelli che vengono ora chiamati cartogrammi.
1786: William Playfair utilizza decine di diagrammi (soprattutto serie storiche, ma anche il primo diagramma a barre) nel suo Commercial and Politica Atlas.

1800-1899

1801: William Playfair introduce il diagramma a torta nel suo Statistical Breviary ("Breviario Statistico").
1824: La variabile casuale di Cauchy viene studiata da Siméon-Denis Poisson vent'anni prima di Augustin-Louis Cauchy. Nell'ambito delle critiche alla variabile casuale normale Poisson dimostra che la media aritmetica di n errori indipendenti distribuiti con la funzione di densità in questione non tende verso una Normale.
1834: su proposta di Lambert-Adolphe-Jacques Quételet viene fondata la Statistical Society of London.
1835: Lambert-Adolphe-Jacques Quételet pubblica uno scritto nel quale, fra le altre cose, c'erano i dati riguardanti la misura del torace di soldati scozzesi e la statura dei militari di leva francesi. Quételet mostrò come tali dati si distribuivano come una variabile casuale normale, ma non andò oltre.
1853: su proposta di Lambert-Adolphe-Jacques Quételet si tiene il primo congresso dell'Istituto Internazionale di Statistica (prima della sua fondazione).
1854: il medico britannico John Snow riesce a far prendere misure di igiene pubblica salvando centinaia di vite dal colera, grazie ad uno tra i primissimi studi epidemiologici, malgrado fosse innovativo ed inusuale per quei tempi tale approccio.
1879: Luigi Perozzo introduce uno stereogramma rappresentante la piramide tridimensionale della popolazione a partire dai dati dei censimenti svedesi 1750-1875.
1885: viene fondato l'Istituto Internazionale di Statistica.

1900-1919

1900
- Karl Pearson presenta la variabile casuale chi quadro.
- George Udny Yule pubblica in Philosophical Transactions of the Royal Society of London l'articolo On the association of attributes in statistics dove introduce l'indice di associazione per tabelle di contingenza 2x2 detto Q di Yule.
1901
- viene fondata Biometrika, rivista britannica, su iniziativa di Karl Pearson, W.F.R.Weldon e Charles Davenport. Tra i suoi finanziatori vi sono Francis Galton, tra i suoi editori lo stesso Karl Pearson.
1903
- George Udny Yule descrive il Paradosso di Simpson nell'articolo Notes on the theory of association of attributes in Statistics, comparso in Biometrika, mezzo secolo prima che Edward Hugh Simpson lo facesse con l'articolo The interpretation of interaction in contingency tables nel Journal of the Royal Statistical Society (1951).
1904
- Karl Pearson introduce il termine tabella di contingenza.
- Charles Spearman pone le basi dell'analisi fattoriale, studio che completerà otto anni dopo.
- Charles Spearman propone il coefficiente di correlazione dei ranghi.
1908
- William Sealy Gosset presenta la variabile casuale t di Student ed il corrispondente test.

1920-1949

1925
- Ronald Fisher pubblica il notevole Statistical methods for research workers che influenzerà generazioni di ricercatori. In tale testo compare l'analisi della varianza.
- Ronald Fisher introduce il concetto di gradi di libertà.
- Durante il congresso dell'Istituto Internazionale di Statistica, dopo polemiche durate anni, una risoluzione adottata distingue tra campionamento casuale e campionamento ragionato.
1926
- George Udny Yule affronta in Why Do We Get Some Nonsense Correlations Between Time Series? A Study in Sampling and the Nature of Time Series il problema della correlazione spuria.
1933
- Andrey Nikolaevich Kolmogorov pubblica gli assiomi della probabilità in Grundbegriffe der Wahrscheinlichkeitsrechnung.
- Andrey Nikolaevich Kolmogorov descrive la statistica |Fn(x) - F0(x)|.
- Harold Hotelling fonda l'analisi delle componenti principali pubblicando "Analysis of a complex of statistical variables into principal components".
- Jerzy Neyman e Egon Pearson pubblicano On the Problem of the Most Efficient Tests of Statistical Hypotheses dove viene descritto l'approccio detto appunto "Neyman-Pearson" sviluppato fin dal 1926.
- Durante il congresso dell'Istituto Internazionale di Statistica, su iniziativa di K.Wikler, viene istituita una commissione per la standardizzazione delle rappresentazioni grafiche in statistica.
1935
- Ronald Fisher introduce in The Design of Experiments la regola che gli esperimenti devono essere programmati (disegnati) prima di essere effettuati, affinché i test statistici possano avere una loro validità. In questo ambito introdusse i concetti di ipotesi nulla (H₀) e ipotesi sperimentale (H₁). Afferma (e si tratta di una grande novità in ambito del metodo scientifico) che nessuna ricerca sperimentale poteva dimostrare l'ipotesi sperimentale, ma solo "accettare" o "respingere" l'ipotesi nulla, anche se effettuare tanti esperimenti in cui si rigettava l'ipotesi nulla aumentava la credibilità che l'ipotesi sperimentale fosse vera.
- 12 settembre: Harold Hotelling tratta a Ann Arbor davanti alla American Mathematical Society e l'istituto per statistica matematica il tema "Relations between two sets of variates" (pubblicato nel 1936 in Biometrika), fondando così il metodo multivariato noto come analisi della correlazione canonica. Lo stesso anno pubblica "The most predictable criterion", che pone anch'esso le fondamenta per questo metodo.
- Alexander Craig Aitken con On Least Squares and Linear Combinations of Observations introduce la notazione matriciale per il modello di regressione lineare e lo stimatore per i minimi quadrati generalizzati nel caso di matrice delle covarianze degli errori non standard
1936
- George Gallup ottiene grande notorietà prevedendo correttamente il risultato delle elezioni presidenziali intervistando soltanto 50 000 persone, mentre l'allora molto quotato Literary Digest sbagliò clamorosamente la previsione pur avendo intervistato molte più persone.
1938
- il fisico Frank Benford analizzò raccolte di numeri formulando la legge di Benford già scoperta nel 1881 dal matematico e astronomo Simon Newcomb e descritta in "American Journal of Mathematics".
1939
- Vladimir Smirnov costruisce il test di Kolmogorov-Smirnov.
- La Società Italiana di Statistica viene fondata il 15 gennaio 1939.
- Robert Tryon introduce il termine cluster analysis
1942
- Alexander Craig Aitken e Harold Silverstone pubblicano On the Estimation of Statistical Parameters dove sviluppando idee di Ronald Fisher derivano un caso particolare di quella che oggi è nota come disuguaglianza di Cramér-Rao
1948
- Viene pubblicato l'esito di una ricerca sull'uso della streptomicina per la cura della tubercolosi che ha fatto uso del primo esperimento clinico randomizzato, progettato da Austin Bradford Hill.
1949
- George Kingsley Zipf (1902-1950), linguista e filologo statunitense, dopo aver studiato per diverse lingue la frequenza con la quale compaiono le parole, propone in "Human Behaviour and the Principle of Least-Effort" una relazione oggi nota come legge di Zipf.

Dal 1950

1960 - Sidney Siegel e John Wilder Tukey pubblicano il test di Siegel-Tukey nel Journal of the American Statistical Association con l'articolo "A nonparametric sum of ranks procedure for relative spread in unpaired samples".
1975 (10 giugno) - Viene fondata la Bernoulli Society for Mathematical Statistics and Probability.
1979 - Bradley Efron pubblica "Bootstrap methods: another look at the jackknife" in The Annals of Statistics, fondando il metodo bootstrap in statistica

Note

^ GHILINI, Girolamo in "Dizionario Biografico", su www.treccani.it. URL consultato il 6 aprile 2023.

Bibliografia

La lettera di Pascal, di Keith Devlin, ed.ital. 2008 (titolo originale: The Unfinished game, 2008)
Le origini del moderno pensiero statistico (1820-1900), di Thedore M. Porter, ed.ital.1993 (titolo originale: The Rise of Statistical Thinking. 1820-1900, 1986)
Il trionfo dei numeri. Come i calcoli hanno plasmato la vita moderna, di Bernahrd I. Cohen, ed.ital.2007 (titolo originale: The triumph of numbers. How they shaped modern life, 2005)
Histoire de la statistique, di Jean-Jacques Droesbeke e Philippe Tassi, 1990
The Golden Age of Statistical Graphics, di Michael Friendly, Statistical Science, 2008, Vol. 23, No. 4, 502–535 - pdf

Voci correlate

Altri progetti

Wikimedia Commons contiene immagini o altri file su storia della statistica

Portale Matematica

Portale Statistica

[ghilini-1] GHILINI, Girolamo in "Dizionario Biografico", su www.treccani.it. URL consultato il 6 aprile 2023.

[1]