PROBABILITÀ, CALCOLO DELLE

Enciclopedia Italiana (1935)

PROBABILITÀ, CALCOLO DELLE

Guido CASTELNUOVO
Luigi GALVANI

. È lo studio delle regolarità statistiche che presentano i fenomeni attribuiti al caso. Con quest'ultima parola s'intende nel calcolo delle probabilità il complesso di molteplici cause d'intensità variabile, delle quali sono difficilmente apprezzabili per la loro piccolezza gli effetti individuali, mentre l'effetto risultante cade sotto l'osservazione. In tal senso si dice che il caso determina la faccia che mostra un dado cadendo, o il numero sorteggiato in un'estrazione del lotto, o la posizione in cui si arresta sul biliardo una palla che ha subito parecchie riflessioni sulle pareti e su altre palle. Una conoscenza più precisa di quelle cause e un calcolo minuzioso dei loro effetti diminuirebbero il margine d'incertezza dovuto al caso e ridurrebbero il campo di applicazione del calcolo delle probabilità. Per Laplace e per la scuola determinista, il progresso della scienza dovrebbe fare svanire o attenuare illimitatamente ogni incertezza; la probabilità sarebbe la misura della nostra attuale ignoranza. Al contrario la fisica quantistica d'oggi afferma che l'incertezza non scenderà mai al disotto di un limite che si può fissare a priori; per fenomeni più minuziosi non si potrà mai parlare se non di probabilità. Qualunque tesi abbia a prevalere, va notato che, anche dove osservazioni e calcoli laboriosi permettono di fare previsioni sicure o quasi sicure, interesserà sempre conoscere con quale frequenza, in media, lo stato attuale di un corpo o di un meccanismo dia luogo a uno dei possibili stati futuri; interesserà, ad esempio, sapere come le molecole di un gas siano distribuite, in media, per quanto riguarda le posizioni e velocità, mentre non importerà seguire il moto di una singola molecola, il quale, del resto, sfugge ai nostri mezzi di osservazione. In queste previsioni di carattere statistico consiste il vastissimo campo di applicazione del calcolo delle probabilità.

A base di questo calcolo sta la valutazione della probabilità di un evento, ordinariamente fondata sulla nozione di casi o eventi equiprobabili. Questa nozione è intuitiva, quando si tratti delle diverse modalità di un fenomeno che presenti certi caratteri di regolarità o simmetria, quali si avvertono nei giuochi d'azzardo. Il calcolo delle probabilità ebbe origine dallo studio di tali giuochi, ed è ancor questo il campo dove il concetto di probabilità si presenta nel modo più limpido. Ragioni di analogia hanno successivamente suggerito le applicazioni alla statistica, alla fisica e ad altre scienze. Per motivi d'ordine storico e di chiarezza la prima e più estesa parte di questo articolo sarà dedicata ai giuochi d'azzardo, intesi nel senso più largo; in alcuni paragrafi (II parte) si parlerà delle probabilità statistiche, e un breve cenno (III parte) sarà dato di un'applicazione alla fisica.

I. Probabilità nei giuochi d'azzardo.

1. Cenni storici. - Prescindendo da computi corretti sul giuoco dei dadi che s'incontrano in un commento alla Divina Commedia (1477) e in alcuni passi di G. Cardano e di Galileo, si fanno risalire le origini del calcolo delle probabilità ad uno scambio di lettere tra B. Pascal e P. Fermat (1654), ove si risolvono questioni sui giuochi d'azzardo proposte dal cavaliere de Méré, e in particolare si discute il modo come due giocatori, che volessero interrompere una partita, dovrebbero dividersi le poste del giuoco. La nozione di speranza matematica che qui interviene è messa in chiara luce tre anni dopo (1657) da Cr. Huygens. Il primo teorema fondamentale di calcolo delle probabilità è dovuto a Giacomo Bernoulli (1654-1705), la cui opera Ars conjectandi fu pubblicata nel 1713, dopo la morte dell'autore. Contributi notevoli con la risoluzione ingegnosa di interessanti e difficili problemi di giuochi portarono, tra gli altri, nella prima metà del sec. XVIII, P. Rémond de Montmort, A. de Moivre, Nicola, Daniele e Giovanni Bernoulli. La sistemazione attuale del calcolo delle probabilità è dovuta al Laplace, il quale, nella classica Théorie analytique des probabilités (1812), applicò i mezzi più elevati dell'analisi a questo ramo di matematica e ne espose importanti applicazioni.

2. Misura della probabilità. - Se si lancia ripetute volte sopra un piano orizzontale un dado soddisfacente alle note condizioni di regolarità geometrica e meccanica. non v'è ragione sufficiente perché una faccia apparisca più spesso di un'altra; le sei facce hanno la stessa probabilità, alla quale si attribuisce il valore 1/6, convenendo che alla certezza (l'una o l'altra faccia) spetti la probabilità 1. Effettivamente se in n colpi le sei facce sono apparse rispettivamente m1, m2,..., m6 volte, si riscontra di solito che le frequenze m1/n, m2/n, ..., m6/n differiscono poco da 1/6. Osservazioni analoghe valgono per il giuoco della moneta, o di testa e croce, ove ciascuna delle due facce presenta la prohabilità 1/2; per il lotto, ove la probabilità di estrarre al primo turno un numero assegnato è 1/90, ecc.

Dall'esame di questi particolari esempî si è condotti a dire che la probabilità di un evento è il rapporto fra il numero deí casi favorevoli all'evento e il numero dei casi possibili, purché tutti questi casi siano equiprobabili. Ad es., se un'urna contiene a palle bianche e b nere, la probabilità di estrarre una palla bianca è a/(a b). Una determinazione empirica o verifica di quella probabilità si effettua sottoponendo l'evento a un gran numero n di prove; se in m di queste l'evento si verifica, la frequenza m/n dà un valore approssimato della probabilità, di solito tanto più approssimato quanto maggiore è n. In questa affermazione consiste la legge empirica del caso, la quale permette di prevedere una frequenza (dato empirico) partendo da una probabilità (nozione teorica). Tuttavia l'affermazione, spesso ripetuta, che la probabilità è il limite della frequenza al crescere del numero delle prove, è erronea, se alla parola limite si attribuisce il significato preciso che ha in matematica (v. limite).

3. Probabilità totali e composte. - Si calcolano probabilità di eventi complessi, quando si conoscano probabilità di eventi semplici, ricorrendo a due principî di dimostrazione immediata.

a) Principio delle probabilità totali. - Se A e B sono due eventi incompatibili (che si escludono a vicenda), la probabilità che si verifichi A o B è la somma delle probabilità dei due eventi. Ad es., se un'urna contiene a palle bianche, b nere e c di altri colori, la probabilità di estrarre una palla bianca o nera è

Questo principio si estende immediatamente al caso di più eventi.

b) Principio delle probabilità composte. - Se A e B sono due eventi indipendenti (tali che il verificarsi dell'uno non alteri la probabilità dell'altro), la probabilità che si verifichino insieme A e B è il prodotto delle probabilità dei due eventi. Ad es., la probabilità che, lanciando due dadi, si ottenga il doppio 6 è

Se al contrario, il presentarsi di A altera la probabilità di B, si deve moltiplicare la probabilità di A per la probabilità che abbia luogo B quando A si sia verificato. Ad es., la probabilità che i due primi estratti al lotto siano due numeri assegnati è

quando sia fissato l'ordine in cui questi devono apparire; mentre se l'ordine è indifferente la probabilità è doppia. Anche questo secondo principio si estende immediatamente a più eventi.

Con l'applicazione dei due principî e con l'uso dell'analisi combinatoria (v. combinatoria, analisi) si giustificano le affermazioni seguenti relative ad alcuni giuochi noti.

Testa e croce. - La probabilità, lanciando n volte una moneta, di ottenere sempre la stessa faccia, ad es. testa, è 1/2n; è 1/256 per n = 8. È dunque un caso rarissimo che testa si presenti otto volte successive; ma si noti che è altrettanto rara la successione di sette teste seguite da una croce; non è quindi giustificata la condotta di molti giocatori che puntano su croce dopo un seguito di colpi che hanno dato testa.

Dadi. - La probabilità di non ottener mai un dato punto, ad es. il 6, in n colpi è (5/6)n ed è quindi 1 − 5n/6n la probabilità (contraria) che almeno una volta si presenti il 6; questa probabilità è inferiore a 1/2 con tre colpi, e leggermente superiore a 1/2 con quattro. Analogamente si vede che la probabilità di ottenere almeno una volta il doppio sei, lanciando n volte due dadi, è 1 − 35n/36n; si trova in condizioni sfavorevoli chi scommette di fare il doppio sei in 24 colpi, in condizioni favorevoli chi dispone di 25 colpi (risposta di Pascal al cav. de Méré).

Lotto. - La probabilità che un dato numero sia compreso fra i 5 estratti è 5/90 = 1/18 = 0,055...; le probabilità di un ambo, di un terno, di una quaterna, di una cinquina, sono rispettivamente:

Giuoco delle concordanze (jeu du treize, secondo de Montmort, che lo propose nel 1710 e lo giocava con 13 carte). - n carte portanti i numeri da 1 a n vengono successivamente estratte da un mazzo in cui si trovano mescolate; vi è concordanza quando la carta porta il numero d'ordine dell'estrazione (ad es. 1 sulla prima carta estratta, o 2 sulla seconda, ecc.). La probabilità che si abbia almeno una concordanza è

dove n! indica il fattoriale di n, cioè il prodotto dei primi n numeri interi (v. fattoriale); la probabilità che non si verifichi nessuna concordanza (ottenuta sottraendo il numero precedente dall'unità) vale presso a poco 1/e (con e base dei logaritmi naturali), se n è grande (v. logaritmo).

4. Speranza matematica. - Chi ha la probabilità 1/4 di vincere un giuoco, il cui guadagno eventuale sia di 100 lire, può cedere equamente la sua posizione a un altro per la somma di 25 lire, che è il prodotto di 100 per 1/4; infatti se egli giocasse un gran numero di partite nelle stesse condizioni, ne vincerebbe circa un quarto e quindi guadagnerebbe in media 25 lire per partita. Il prodotto di un guadagno fortuito per la probabilità di vincerlo si chiama speranza matematica. Se il giuoco presenta varie eventualità, a cui spettino i guadagni s1, s2, s3..., con le rispettive probabilità p1, p2, p3 la speranza matematica totale è data dalla somma p1s1 + p2s2 + p3s3 .... Le speranze matematiche di più guadagni si sommano, mentre le probabilità si addizionano soltanto se gli eventi sono incompatibili (n. 2).

La speranza matematica di chi attende 1000 lire dalla vincita di un ambo al lotto è data dal prodotto di 1000 per 0,0025, ossia L. 2,50; sarebbe questa la somma che egli dovrebbe pagare per aspirare a quella vincita, se la somma stessa non dovesse venir caricata dalle spese dell'imprenditore (lo Stato) e dal guadagno che questo si riserva. Similmente in una lotteria il prezzo di un biglietto, detratti i diritti dell'imprenditore, rappresenta la speranza matematiea dei premi promessi. Una celebre questione che conduce a una speranza matematica infinita e ha dato luogo a interminabili discussioni fu proposta nel 1738 da Daniele Bernoulli (problema di Pietroburgo): Pietro lancia una moneta e promette a Paolo 1 lira se testa si presenta al primo colpo, 2 lire se si presenta al secondo, 22 = 4 lire se al terzo, ecc. La speranza matematica di Paolo è

è dunque infinita; qualunque somma Paolo versasse per prender parte a un simile giuoco, egli si troverebbe sempre in condizioni favorevoli, almeno in teoria. In pratica egli avrebbe una probabilità forte di riscuotere una somma minima e quindi di perdere buona parte della posta, di fronte a una probabilità minima di guadagnare una somma immensamente più grande della posta.

5. Variabile casuale; valor medio. - Il guadagno aleatorio di un giuoco dà un primo esempio di una variabile casuale (o aleatoria) cioè di una quantità che può assumere varî valori con probabilità note. Il calcolo delle probabilità fornisce molti altri esempî, ed anche la statistica, purché alla parola "probabilità" si sostituisca il termine "frequenza". Così il punto che un dado lascia apparire è una variabile casuale, che prende i valori 1, 2,..., 6, ciascuno con probabilità 1/6. Nella statistica antropometrica l'altezza di un coscritto su 1000 misurati è pure una variabile casuale, che può avere, ad es., i valori 150, 151,..., 190 cm., con frequenze ottenute dividendo per 1000 i numeri degl'individui che hanno quelle stature. La somma dei prodotti dei valori della variabile per le rispettive probabilità (o frequenze) è la speranza matematica di quella variabile, o meglio il valor medio, come oggi spesso si dice. Ad es., nella statistica delle stature, quel valor medio è effettivamente la media aritmetica delle altezze dei coscritti esaminati (ciascuna altezza essendo contata tante volte quanti sono i coscritti che la posseggono). Per una variabile casuale X, il valor medio m, che indicheremo con M (X), è un carattere importante; interessa, ad es., sapere che il valore medio delle stature di una classe di coscritti è di 165 cm. Interessano pure gli scarti o le deviazioni della variabile X rispetto al valor medio, cioè i valori delle differenze X m presi con le rispettive probabilità (o frequenze). Per avere un'idea dell'ordine di grandezza di questi scarti si ricorre di solito allo scarto quadratico medio o deviazione tipica, che gli statistici sogliono indicare con σ. Per definizione σ2 = M[(X − m)2] è il valor medio dei quadrati degli scarti di X da m; è dunque, nella statistica, la media aritmetica dei quadrati degli scarti, ciascuno ripetuto tante volte, quante si presenta. Ad es., per le stature di un gruppo omogeneo di coscritti italiani σ è lievemente inferiore a 7 cm.

L'importanza che hanno i caratteri m e σ per una variabile casuale dipende in buona parte dal fatto che la grande maggioranza dei valori assunti dalla X è contenuta in un intervallo avente per punto medio m e per ampiezza uno dei primi multipli di σ. Si dimostra infatti (I.-J. Bienaymé, 1853) che la probabilità che un valore della variabile X sia compreso fra m tσ e m + tσ è maggiore o uguale a 1 − 1/t2, qualunque sia il numero t, purché > 1. Ad esempio, la probabilità di un valore compreso fra m − 3σ e m + 3σ è ≧ 8/9. Nella maggior parte dei casi la detta probabilità è notevolmente superiore a 8/9, tanto che si considera come molto improbabile il caso che la variabile si stacchi dal valor medio m più di tre volte lo scarto quadratico medio. Ad es., su 1000 coscritti, se ne trovano ordinariamente meno di 10 le cui stature differiscano dalla media di oltre 21 cm., in più o in meno.

6. Schema di Bernoulli. - I giuochi d'azzardo porgono esempî di eventi che possono essere sottoposti a una serie illimitata di prove, conservando in ciascuna di esse probabilità costante; si pensi, ad es., alla faccia che presenta una moneta o un dado a ogni colpo. Conviene schematizzare un tale evento mediante l'estrazione di una palla da un'urna che, dopo ogni sorteggio, riprende la stessa composizione. Qual'è la probabilità che in n estrazioni sorta un numero prefissato di palle bianche? L'urna contenga palle bianche e nere in proporzione costante, e siano p e q = 1 - p le probabilità di estrarre a ogni sorteggio una palla bianca o nera. Si vede allora facilmente che la probabilità di ottenere, in n colpi, a palle bianche e n - a nere è data dalla formula binomiale (v. binomio)

In questo problema a può avere i valori n, n − 1,...,1, 0 e le probabilità corrispondenti a questi n + i casi sono date dai successivi termini di (p + q)n. Per i primi valori di n si possono raffigurare graficamente le dette probabilità portando gli n + 1 valori di a in ascissa e i corrispondenti valori (1) in ordinata, e costruendo la spezzata (binomiale) che ha per vertici gli n + 1 punti così ottenuti. Si vede così che l'ordinata più alta corrisponde all'ascissa np, se np è un intero, o a uno dei due interi tra i quali np è compreso; è questo il numero più probabile di palle bianche che sortano in n estrazioni. Lanciando 100 volte una moneta (p = q = 1/2, n = 100), il caso più probabile è che testa si presenti 50 volte; la probabilità di questo evento è invero molto piccola, circa 0,08; ma è più piccola la probabilità di ottenere testa 49 volte, più piccola ancora la probabilità di 48 teste, ecc.

Il numero a delle volte che appare palla bianca in n estrazioni è una variabile casuale, che può assumere i valori interi da 0 ad n con le probabilità date dall'espressione (1). Si dimostra che il valor medio di questa variabile è np; vuol dire che, in media, sortono np palle bianche in gruppi di n estrazioni. Lo scarto a np ha esso pure n valori compresi fra − np e n np = nq; il valore medio del quadrato dello scarto è npq = np (i p) e lo scarto quadratico medio è σ = √npq. Ad es., lanciando 100 volte una moneta (n = 100, p = q = 1/2), in media appariranno 50 teste; però, in ogni serie di 100 colpi si avrà uno scarto positivo o negativo o nullo, il cui valore quadratico medio è σ = 5. Si può adunque prevedere che il numero delle teste che si presenteranno in ciascuna serie sarà presumibilmente compreso fra 50 − 3.5 = 35 e 50 + 3.5 = 65; in circa tre di mille serie analoghe il numero di teste risulta inferiore a 35 o superiore a 65.

7. Formule approssimate. - La formula (1) non si presta né al calcolo pratico, né a considerazioni teoriche per valori grandi di n. Si ricorre di solito a una formula approssimata, ma comoda, che si ottiene da quella sostituendo i fattoriali con le espressioni date dalla formula di Stirling (v. fattoriale) e ricorrendo ad altri procedimenti di approssimazione. La formula di Stirling (1730), data pochi mesi prima da A. de Moivre, salvo il valore di una costante, si scrive così:

(con e = 2,71828... base dei logaritmi naturali, e π = 3, 14159... rapporto della circonferenza al diametro).

I due membri della (2) in realtà non sono uguali, anzi la loro differenza cresce al crescere di n; ma il loro rapporto tende all'unità (ad es., per n = 10; 20; 30 quel rapporto vale 1,0083...; 1,0041...; 1,0028.. .). Con i detti mezzi di approssimazione si ottiene la formula di Laplace (1812), già data in casi particolari un secolo prima dal de Moivre,

la quale assegna la probabilità dello scarto x in n prove; cioè la probabilità di ottenere in n estrazioni dall'urna sopra nominata np + x palle bianche (al solito p e q = 1 − p indicano la probabilità di estrarre in ciascuna prova una palla bianca o nera). Indicando con σ = √npq lo scarto quadratico medio, la (3) si scrive nella forma più compatta

Ad es., nel giuoco di testa e croce è

la probabilità di ottenere 50 + 10, (o 50 - 10) teste lanciando 100 volte una moneta. La (3) o (3′) dà risultati notevolmente approssimati se x ≦ 3σ e p non differisce troppo da q.

Per vedere come la probabilità Px varii al variare dello scarto giova tracciare la curva della probabilità o curva di Gauss, rappresentata dalla (3) o (3′), ove x è l'ascissa e Px l'ordinata. Questa curva passa (almeno per i piccoli valori di x) in vicinanza del diagramma binomiale nominato al n. 6. Basterebbe disporre della curva (normale)

rappresentata in figura. La curva è simmetrica rispetto all'asse y, ove si trova l'ordinata massima, e tende asintoticamente verso l'asse per x → ± ∞.

Tracciata con molta esattezza la curva (4), essa permette di calcolare la probabilità di un dato scarto α in n prove. A tal fine si determini anzitutto il valore di h = 1/√2npq, si porti poi come ascissa x = ha, si misuri l'ordinata corrispondente y e se ne moltiplichi il valore per h; è Pα = hy.

Più che questa probabilità occorre di solito la probabilità che lo scarto sia compreso fra limiti assegnati, in particolare fra l e - l; la probabilità dunque che il numero delle palle bianche tratte dall'urna in n estrazioni sia compreso fra np l e np + l. Questa probabilità è data approssimativamente dall'area compresa fra la curva (3) o (3′), l'asse x e le ordinate condotte nei punti di ascisse ± l; è espressa dunque dall'integrale

o in forma più comoda (Laplace, 1812)

La detta probabilità dipende da una sola variabile λ (scarto ridotto) e si calcola subito, quando si disponga di una tabella che dia i valori della funzione (5), indicata di solito con Θ(λ), per successivi valori di λ, ad es., per λ = 0,001; 0,002;... fino a λ = 3; per valori più alti la probabilità (5) è 1 (certezza) a meno di uno o due centomillesimi. Tavole siffatte si trovano nei trattati di calcolo delle probabilità o di teoria degli errori, dove la stessa funzione interviene. Disponendo della tavola si risponde rapidamente a una domanda come questa: lanciando 200 volte una moneta, qual è la probabilità che testa apparisca un numero di volte compreso fra 100 − 8 = 92 e 100 + 8 = 108? Qui n = 200, p = q = 1/2, √2npq = 10, l = 8, λ = 0,8; in corrispondenza la tavola dà il valore di 0,7421; questa è dunque la probabilità richiesta.

Nelle applicazioni del calcolo delle probabilità si procede spesso così. Si calcola anzitutto lo scarto quadratico medio σ = √npq e si tien presente che la probabilità di uno scarto non superiore (in valore aritmetico) a tσ dipende esclusivamente dal numero t (positivo qualsiasi); in particolare per t = 1/2; 1; 3/2; 2; 5/2; 3, la probabilità vale rispettivamente 0,3829; 0,6826; 0,8664; 0,9545; 0,9876; 0,9974.

8. Teorema di Giacomo Bernoulli. - L'ultima osservazione contiene implicitamente la dimostrazione di un fondamentale teorema di calcolo delle probabilità. Si tratta sempre di un evento che conserva probabilità costante p in ogni prova; a è il numero delle volte che l'evento si presenta in n prove, e quindi x = a np è lo scarto. La probabilità che questo scarto sia compreso fra −tσ e +tσ, ove σ = √npq = √np (1 − p) dipende esclusivamente dal coefficiente t; essa rimane costante al crescere di n, se l'intervallo, ove deve cadere lo scarto, cresce proporzionalmente a σ, ossia a √n. Se invece teniamo fisso l'intervallo ad es., fra − l e +l, sarà sempre più difficile che lo scarto vi sia contenuto; in altre parole la probabilità che lo scarto x sia compreso fra −l e +l tende a zero al crescere del numero n delle prove.

Il contrario avviene se si considera in luogo dello scarto (assoluto) x = a np lo scarto relativo ξ = x/n = a/n p. La probabilità che ξ cada fra − l e +l coincide con la probabilità che x sia compreso fra - nl e + nl. Ora se l è fisso, questo intervallo cresce più rapidamente di √n; dunque è tanto più facile che x vi sia contenuto, quanto più grande è n; la probabilità che ξ sia compreso fra − l e +l tende a 1 (cioè alla certezza) col crescere di n. In quest'ultima osservazione consiste il celebre teorema di G. Bernoulli reso noto nel 1713 dopo la morte dell'autore, avvenuta nel 1705: "In una serie di n prove un evento, che in ciascuna di esse ha la probabilità costante p, si presenti a volte; la probabilità che la differenza a/n − p sia in valore aritmetico inferiore a un numero assegnato (ad es., a 0,001) tende alla certezza col crescere del numero delle prove".

Il rapporto a/n è la frequenza dell'evento in n prove. Il teorema di Bernoulli ci dice che, fatta astrazione da casi di probabilità trascurabile, la detta frequenza e la probabilità p in ogni singola prova differiscono tanto poco quanto si vuole, purché il numero n sia sufficientemente alto. Che la differenza a/n p sia ordinariamente piccola è noto già dalla legge empirica del caso (n. 2). Parrebbe che il teorema del Bernoulli renda superflua questa legge. In realtà non è così. Codesto teorema, come ogni altra proposizione teorica di calcolo delle probabilità, contiene un'affermazione relativa a una probabilità, nel caso attuale relativa alla probabilità che sia, ad es., ∣ a/n p ∣ 〈 0,001 per n alto. Invece la legge empirica del caso contiene un'affermazione relativa a una frequenza, relativa, ad es., alla molteplicità del numero dei casi nei quali l'ultima disuguaglianza effettivamente si verifica. Non si può stabilire un nesso fra le due affermazioni, se non si sa già che una frequenza dà un valore approssimato di una probabilità: ed è proprio ciò che afferma la legge empirica del caso, della quale non si può dunque fare a meno. Per ricordare più facilmente il teorema di Bernoulli ed altri simili teoremi asintotici conviene chiamare praticamente certo un evento, la cui probabilità è prossima ad 1 e del quale si presume quindi sia prossima ad 1 la frequenza (si ritiene dunque che l'evento si presenti nell'enorme maggioranza dei casi). Si può allora dire che è praticamente certo che la differenza a/n - p è molto piccola, quando n sia abbastanza alto. Ad es., se una moneta, lanciata n volte, presenta testa a volte, è praticamente certo che a/n differisce da 1/2 di meno di 0,001 per n abbastanza alto (dell'ordine di 3 milioni).

9. La rovina dei giocatori. - Anche la prima parte del n. 8 contiene un'affermazione interessante, concernente lo scarto assoluto x = a np, osservazione che metteremo in luce considerando il giuoco di testa e croce. Due giocatori lanciano più volte una moneta e convengono che per ogni testa il primo debba ricevere 1 lira dal secondo, e per ogni croce debba versare 1 lira a questo; il conto viene regolato alla fine del giuoco. Se di n colpi il primo ha vinto n/2 + x e perduto n/2 − x, egli riceverà dall'avversario 2 lire, doppio dello scarto assoluto. Ora al crescere di n tende a zero la probabilità che 2 x resti al disotto di un limite assegnato, ad es., della sostanza posseduta dall'uno o dall'altro giocatore. Dunque è praticamente certo che in un giuoco equo sufficientemente prolungato uno dei due avversarî perda tutta la sua sostanza. Si comprende che alle condizioni di pocanzi occorre un enorme numero di colpi (dell'ordine di un milione), perché vi sia una probabilità forte che uno dei due perda ad es., 100 lire; il risultato è tuttavia imprevisto e ha un interesse teorico.

10. Schema di Poisson e legge dei grandi numeri. - Lo schema di Bernoulli (n. 6) dà luogo a varie estensioni. Per citarne una, consideriamo un evento il quale abbia probabilità diverse in alcune o in tutte le prove a cui viene sottoposto. Basta immaginare una serie di urne tali che le probabilità di estrarre una palla bianca dalla prima, seconda,..., n-esima urna abbiano i valori p1, p2,..., pn, essendo qi = 1 − pi la probabilità di estrarre palla nera. Si toglie una palla da ciascuna delle n urne; qual'è la probabilità di avere a palle bianche? Si dimostra anzitutto che il valor medio del numero delle palle bianche sortite in n estrazioni è p1 + p2 + ... pn = np, ove s'indica con p la probabilità media, e che il valor medio del quadrato dello scarto (assoluto) x = a np è σ2 = p1q1 + p2q2 + ... + pnqn. Si dimostra poi esser praticamente certo, anche in questo caso più generale, che lo scarto relativo a/n - p risulta piccolo, se n è grande. Possiamo presentare sotto la forma seguente, sebbene imprecisa, il risultato a cui S.-D. Poisson (1837) ha dato il nome di legge dei grandi numeri (detta oggi primo teorema limite della probabilità): la frequenza sopra un grande numero di casi di un evento, la cui probabilità possa anche variare col tempo, dà un valore approssimato della probabilità media dell'evento. Finalmente si dimostra, sotto ipotesi assai larghe il secondo teorema limite della probabilità, il quale afferma che la probabilità che lo scarto assoluto abbia un valore assegnato x è data ancora con buona approssimazione, se n è molto grande, dalla formola (3′) del n. 7, ove σ ha il valore scritto qui sopra. Si è visto in epoca recente che i due teoremi limite si estendono ad eventi di carattere più generale.

11. Probabilità nel continuo. - In alcuni giuochi d'azzardo l'evento considerato presenta un'infinità di casi possibili; così nella roulette (disco circolare intorno al cui centro ruota liberamente un ago) la posizione di arresto dell'ago può variare in infiniti modi. Come si estende a simili eventi il concetto di probabilità? Una pallina (assimilata a un punto materiale) viene lanciata lungo una retta (asse x) e si arresta per effetto dell'attrito. La probabilità che essa si fermi in un dato punto, il quale non presenti particolarità, va riguardata come nulla; si può parlare invece della probabilità che la fermata abbia luogo in un intervallo fissato sulla retta. Se l'intervallo è piccolissimo e ha uno dei suoi estremì variabili, si ammette che la probabilità sia proporzionale alla lunghezza. S'indica perciò con f(x) dx la probabilità che la pallina si arresti nell'intervallo compreso fra x e x + dx. La funzione f(x), positiva o nulla, è la densità della probabilità. La probabilità che la fermata abbia luogo nell'intervallo da a a b è ∉ba(x) dx; deve essere naturalmente

(certezza). Una particolare funzione che soddisfa a questa condizione e fornisce la densità in numerosi problemi interessanti il calcolo delle probabilità e le sue applicazioni è

legge normale della probabilità o legge di Gauss (cfr. nn. 7, 10).

Un problema di probabilità nel continuo è determinato, quando sia nota la densità. Questa si deve poter ricavare dall'enunciato se formulato convenientemente; o (ciò che equivale) si devono poter ricavare le regioni di uguale probabilità. D'altra parte, nei problemi concreti, la valutazione teorica si deve poter confermare con determinazioni empiriche di frequenze, in guisa da estendere anche alle probabilità continue la legge empirica del caso (n. 2). Solo in problemi particolari fu osservato (da H. Poincaré) che il risultato può essere indipendente dalla scelta della f(x).

L'estensione a più variabili è immediata. La probabilità che un punto materiale lanciato a caso sopra un'area piana cada in una parte di quest'area è nota quando si conosca la densità f(x, y) della probabilità, cioè una tal funzione che sia f(x, y) dxdy la probabilità che il punto venga a trovarsi entro il rettangolo infinitesimo, avente un vertice nel punto (x, y) e due lati paralleli agli assi cartesiani, di lunghezze dx, dy.

Sono stati trattati in modo ingegnoso varî eleganti problemi di probabilità geometrica. Pochi presentano un vero interesse scientifico. Citeremo, per ragioni storiche e per gli sviluppi a cui ha dato luogo, il problema dell'ago, proposto dal naturalista G. Buffon nel 1733 e più tardi da lui risolto. Sopra un foglio orizzontale solcato da rette parallele equidistanti si lancia un ago la cui lunghezza 2 l è inferiore alla distanza 2 a di due rette consecutive; qual'è la probabilità che l'ago incontri una delle parallele? Si dimostra che la probabilità è

si ha qui un modo per determinare, con effettive esperienze, un valore approssimato di π, rapporto della circonferenza al diametro; qualche migliaio di prove ha condotto a valori errati al più di un'unità della seconda cifra decimale. Modificando lievemente le condizioni del problema si è stabilito che la probabilità che una corda di una curva chiusa convessa (della quale corda si assegnino a caso direzione e distanza da un punto fisso) incontri una seconda curva chiusa convessa ivi contenuta è il rapporto del perimetro di questa al perimetro di quella. Risultati analoghi riguardano curve chiuse esterne l'una all'altra, ecc.

12. Probabilità delle cause. - Uno scrigno ha tre cassetti uguali; il primo contiene due monete d'argento, il secondo una di argento e una d'oro, il terzo due d'oro. Si apre a caso un cassetto e si prende a caso una moneta. Se domandiamo: qual'è la probabilità che sia d'oro? abbiamo un problema di probabiltà a priori che si risolve subito ricorrendo ai principî del n. 3. Modifichiamo ora la domanda: avendo riscontrato che la moneta prescelta era d'oro, qual'è la probabilità che si sia aperto il terzo cassetto? Ecco una questione di probabilità a posteriori o probabilità delle cause; si riguarda impropriamente come causa l'aver aperto un certo cassetto, mentre si tratta di una circostanza preliminare cui fa seguito l'effetto concernente la moneta scelta. Qui, come negli altri problemi di questa teoria, si deve esaminare come la probabilità a priori della causa (attualmente 1/3) venga modificata dalla conoscenza dell'effetto. Con la formula, di cui parleremo, si vede che la probabilità a posteriori di aver aperto il terzo cassetto è 2/3 (mentre sarebbe 1/3 per il secondo e zero per il primo, che non contiene monete d'oro).

La formula cui alludiamo porta il nome di un prelato inglese, Th. Bayes, che si era occupato di un particolare problema di questo tipo in due memorie, pubblicate dopo la sua morte, nel 1764-65. La sistemazione attuale della teoria è dovuta al Laplace (in varî scritti dal 1774 in poi) e al Poisson (1837), che l'ha schematizzata nel modo seguente. Son date più urne, ad es. tre, e sono note le probabilità (a priori) ω1, ω1, ω2 ω3, di scegliere la prima, seconda, terza urna e le probabilità rispettive p1, p2, p3 di estrarre una palla bianca dalle tre urne. Sapendo che dall'urna prescelta fu estratta una palla bianca (effetto noto), si domanda quale sia la probabilità che l'estrazione sia avvenuta dalla prima delle tre urne (causa incognita). La detta probabilità è

Le probabilità a posteriori delle varie cause possibili risultano dunque proporzionali ai prodotti delle rispettive probabilità a priori 1, ω2,...) moltiplicate per le probabilità (p1, p2,...) che, agendo quelle cause, si sia prodotto l'effetto conosciuto.

Alla formula di Bayes si ricorre di solito, in modo non scevro da critiche, per trattare il problema inverso di quello a cui dà luogo lo schema di Bernoulli (n. 6). Da un'urna di composizione costante ma incognita si sono ottenute, in n estrazioni, m palle bianche; qual'è la probabilità che delle a palle contenute nell'urna α siano bianche? È nota dunque attualmente la frequenza m/n dell'evento (estrazione di una palla bianca) e si chiede quanto sia accettabile l'ipotesi che la relativa probabilità sia α/a. Per ricondursi al procedimento precedente si suppone (ed è questa una prima ipotesi arbitraria) che l'urna su cui si è operato sia stata scelta a caso entro una collezione di urne contenenti, sopra un numero totale di a palle, 0,1,..., a palle bianche; si dànno poi (seconda ipotesi arbitraria) le probabilità a priori di questi varî casi, e con la formula precedente si determina la probabilità a posteriori dell'urna che interessa. Senza fermarci sulla formula risolutiva, che ha scarse applicazioni, limitiamoci a citare un risultato asintotico.

Indichiamo con f = m/n la frequenza riscontrata dell'evento in n prove, con p la probabilità incognita dell'evento in ciascuna prova, con l un numero positivo piccolo rispetto ad f; si dimostra allora che la probabilità che p sia compresa fra f l e f + l è data, per n molto grande, dall'integrale

Lo scambio di f con p porterebbe alla formula classica che nello schema del Bernoulli (e con basi molto più solide) dà la probabilità di una frequenza contenuta fra p - l e p + l [n. 7, (5)].

Un'altra applicazione ha fatto Laplace della formula di Bayes per rispondere alla domanda: un evento (di probabilità costante incognita) si è verificato m volte in n prove; qual'è la probabilità che esso si presenti in una nuova prova? La detta probabilità è

La brevità di questo articolo ci impedisce di discutere il valore di questa formula e di accennare alle strane e assurde applicazioni che ne furono fatte a questioni di scienze fisiche e morali.

Conviene invece riprendere il problema precedente e osservare che esso è contenuto in quest'altro: z successivi gruppi di n estrazioni da un'urna di composizione costante, ma incognita, hanno dato m1, m2,..., mz palle bianche e hanno quindi fornito la serie di frequenze m1/n, m2/n,..., mz/n; che cosa si può dire intorno alla corrispondente probabilità? Il nuovo problema viene qui enunciato soltanto per paragonarlo con la questione apparentemente analoga che si presenta nella statistica, quando le dette frequenze, anziché riguardare gruppi di estrazioni, sono ricavate da osservazioni di fenomeni collettivi. Vi è qui una questione preliminare da risolvere. Quale significato si deve dare alla parola probabilità, visto che non esiste ora né urna, né evento al quale la definizione classica (n. 2) si possa applicare? In quali casi e fino a qual punto la probabilità di cui parlano i cultori della statistica ha una vera analogia con la probabilità da noi considerata sinora? La risposta sarà data nel seguito.

II. Probabilità statistiche.

13. Cenni storici. - Pochi anni dopo la corrispondenza Pascal-Fermat, alla quale si fa risalire l'inizio del calcolo delle probabilità, si trovano tracce di applicazioni alla statistica e all'attuaria (matematica delle assicurazioni). Così in alcune lettere del 1669 Cristiano Huygens espone al fratello minore Ludovico la differenza fra vita probabile e vita media e parla di assicurazioni vitalizie su due teste. Un calcolo di rendite vitalizie fondato su chiare nozioni di probabilità si trova in un documento ufficiale presentato nel 1671 agli Stati Generali d'Olanda dal grande uomo di stato e matematico Jan De Witt. Tavole di mortalità furono costruite scientificamente nel 1693 dal noto astronomo E. Halley, il quale, poggiandosi sul calcolo delle probabilità, ne espose l'applicazione al calcolo di annualità vitalizie. Giacomo Bernoulli voleva dedicare l'ultima parte della sua Ars conjctandi alle applicazioni civili, morali ed economiche (son sue parole) del calcolo delle probabilità; disgraziatamente ciò che in questa parte doveva seguire il celebre teorema non fu mai pubblicato. Il nipote Nicola Bernoulli, in due lettere del 1712-13 al de Montmort, discute la ripartizione numerica delle nascite secondo i sessi con criterî che preludono alla moderna teoria della dispersione. A. de Moivre dedica l'ultima parte della sua Doctrine of chances (3ª edizione, 1756) allo studio matematico delle annualità.

Dopo quell'epoca, le opere più estese sul calcolo delle probabilità (in particolare quelle di Laplace e Poisson) dedicano una larga parte alle applicazioni statistiche.

14. Serie di frequenze; dispersione. - Conviene premettere una distinzione tra due tipi diversi di serie di frequenze che s'incontrano nella statistica. Si ottiene una serie omograda (Charlier) o intensiva, quando si distribuiscono gl'individui di una collettività (nel largo significato che la statistica dà a questi termini) in due classi, secondo che essi posseggono o non posseggono un determinato carattere. Se, presi nella collettività diversi gruppi di n individui (o anche composti di diversi numeri d'individui), si riconosce che mi del primo gruppo, m2 del secondo,..., mz dell'ultimo presentano quel carattere, si avrà la serie omograda

Ad es., se su varî gruppi di 1000 nascite, si osservano 503, 516,..., maschi, le frequenze 0,503; 0,516;... appartengono a una serie siffatta. È pure omograda la serie delle frequenze di palle bianche in più gruppi di n estrazioni da un'urna di composizione costante, ecc.

Si ottiene invece una serie eterograda o estensiva, quando si classificano gli n individui di una collettività secondo un carattere che presenta varie graduazioni C1, C2,..., Cz; se m1 di quegli n individui hanno il carattere C1, m2 il carattere C2,..., le frequenze (7) (la cui somma, in tal caso, vale 1) formano una serie eterograda. Così se di 1000 coscritti, 2 hanno l'altezza di 150 cm., 3 di 151 cm., ecc., le frequenze 0,002; 0,003;... compongono una serie di questo secondo tipo.

Limitiamoci per ora a considerare serie omograde e riprendiamo la questione finale del n. 12: data una tal serie (7), si può annettere ad essa un numero p che si possa definire come probabilità del fenomeno, a cui si riferiscono quelle frequenze? La questione si può precisare così: è possibile comporre un'urna con palle bianche e nere in tale proporzione da poter riguardare le frazioni (7) come frequenze di palle bianche in z gruppi di n estrazioni? Se la risposta sarà affermativa, la probabilità di estrarre palla bianca dall'urna ci fornirà il numero p che andiamo cercando.

Ammesso che quell'urna si possa formare, ciascuna delle frequenze (7) darà un valore approssimato della probabilità incognita; e un valore ordinariamente più approssimato sarà la media aritmetica delle z frequenze

che è la frequenza su nz individui. Assumeremo p come valore presunto della probabilità incognita (commettendo un errore che non supererà di solito 1/nz, trascurabile quindi se n e z sono grandi). Formiamo gli scarti presunti m1/n p,..., mz/n p, e calcoliamo il valor medio dei loro quadrati. Possiamo operare in due modi: o empiricamente, calcolando la media aritmetica dei detti quadrati

o teoricamente, nell'ipotesi in cui ci siamo posti che l'urna abbia composizione costante (schema di Bernoulli, n. 6),

Se la detta ipotesi è giusta, i due valori trovati saranno presso a poco uguali e il rapporto

sarà press'a poco uguale ad 1. È Q il coefficiente di dispersione (W. Lexis, 1877). Per poter dunque ricorrere all'urna di cui stiamo parlando e attribuire alla frequenza media (8) il carattere di una probabilità nel senso classico, è necessario che il coefficiente di dispersione sia press'a poco uguale a 1 (con un margine di errore che si può precisare); si suol dire allora che la serie di frequenze (7) è a dispersione normale. A questa prima condizione altre saranno poi da aggiungere; ad es., che gli scarti suddetti si comportino come ġli scarti nello schema di Bernoulli (n. 6); che siano dunque, a un dipresso, altrettanto numerosi gli scarti positivi e negativi, che il 68% degli scarti (presi in valore assoluto) non superi σE o σB, ecc.

Per quei pochi fenomeni osservati dalla statistica, nei quali queste varie condizioni sono soddisfatte, la frequenza media o probabilità p rappresenta una costante naturale, che si presume possa conservare una relativa stabilità nello spazio e nel tempo. L'esempio più noto e più spesso citato di un tale fenomeno riguarda la proporzione dei sessi nelle nascite umane. Le frequenze di nascite maschili (rispetto al numero totale delle nascite) calcolate anno per anno in Italia durante un decennio (1903-1912) oscillano intorno al valor medio p - 0,513 con un coefficiente di dispersione Q = 1,19 lievemente superiore all'unità. Valori press'a poco uguali di p si ritrovano anche per altre regioni e per altri periodi prossimi di tempo. Solo allungando notevolmente il periodo di osservazione, risulta per Q un valore sensibilmente più alto.

Di solito, data una serie statistica (7), si riscontra che Q è notevolmente superiore all'unità (dispersione supernormale). Non basta allora lo schema di Bernoulli a dare ragione delle frequenze osservate, ma è necessario ricorrere a schemi di urne più complessi. Uno schema che conduce a una dispersione supernormale fu suggerito dal Lexis; basta supporre che le z frequenze (7) corrispondano a gruppi di n estrazioni da z urne di composizione diversa. Se p1, p2,..., pz, sono le probabilità di estrarre palla bianca dalla prima, seconda,..., ultima urna, la frequenza media p data dalla (8) uguaglia press'a poco la media aritmetica

La p in questo caso non è dunque comparabile ad una probabilità in senso stretto, ma è una media di probabilità. Per citare qualche fenomeno al quale sia applicabile lo schema precedente, si supponga di calcolare anno per anno, durante un decennio, il rapporto di natalità o di mortalità d'una popolazione (numero dei nati o dei morti, diviso per il numero dei viventi all'inizio dell'anno); avremo dieci frequenze del tipo (7), la cui media aritmetica (8) (natalità o mortalità media nel decennio) non ha più il carattere di una costante naturale, date le variazioni sistematiche nel tempo della natalità o mortalità, ma rappresenta una specie di numero indice, utile per riconoscere come il fenomeno muti al cambiare del periodo decennale o del luogo.

Si possono citare altri modi di realizzare con opportuni schemi di urne certe serie omograde di frequenze, ma per brevità sorvoliamo sopra tale argomento. In linea generale una frequenza raccolta sopra un numero grandissimo d'individui vien detta spesso probabilità, ma per poter applicare ad essa i metodi più raffinati del calcolo delle probabilità occorre che siano soddisfatte certe condizioni, alle quali sopra si è accennato.

15. Serie eterograde. - Siano ora m1, m2,..., mz i numeri d'individui, in una collettività di n, che presentano i gradi x1, x2,.., xz di un determinato carattere; supporremo trattarsi di un carattere quantitativo (ad es., stature espresse in centimetri, età espresse in anni, ecc.). In una rappresentazione cartesiana portiamo le x1, x2,..., come ascisse e le corrispondenti frequenze (7) come ordinate. I z punti così ottenuti determinano il diagramma della serie statistica eterograda (7). Ora, con un processo di perequazione, sia di natura empirica, sia fondato su considerazioni teoriche, facciamo passare in vicinanza dei detti punti una curva continua y = f(x), regolare quanto è possibile. Se la curva è scelta opportunamente, si suol dire che le ordinate di essa f (x1), f (x2),..., f (xz) dànno le probabilità (statistiche) dei valori x1, x2,..., xz del carattere in esame, delle quali probabilità le frequenze (7) forniscono valori approssimati. Anche qui dunque come probabilità si prende un valore approssimato della frequenza, ma nel fissare l'approssimazione ci si lascia guidare dagli stessi criterî (teorici o empirici) che intervengono in ogni processo di perequazione. In questo senso, ad es., si parla della probabilità di sopravvivenza all'età di 1, 2,..., 100 anni (probabilità che un individuo nato in una certa epoca sia vivo 1, 2,... 100 anni dopo).

Una curva perequatrice che risponde bene in varî casi è la curva della probabilità (nn. 6, 10)

dove h e a sono parametri da scegliere opportunamente. Ad es., la (9) rappresenta abbastanza bene la statistica delle stature di una popolazione omogenea (a = statura media). Meglio ancora la (9) assegna la probabilità degli errori commessi prendendo più volte con metodo uniforme la misura x di una grandezza (distanza, angolo,.. .), della quale è a il valore esatto. Fu il Gauss (1809) che in base a considerazioni teoriche assegnò la legge degli errori (9), alla quale viene attribuito il suo nome (v. errori d'osservazione).

Quando la curva (9) non si adatti a rappresentare le osservazioni, si ricorre o a uno sviluppo in serie (di H. Bruns, 1906) di cui la funzione (9) rappresenta il primo termine, mentre gli altri sono dati dalle successive derivate moltiplicate per coefficienti opportuni; oppure si tenta la perequazione mediante una delle sette curve [di cui l'ultima coincide con la (9)] proposte da K. Pearson (dal 1894 in poi) in base a considerazioni teoriche ed empiriche.

16. Serie eterograde a due variabili; correlazioni. - Nella statistica s'incontrano spesso coppie di caratteri che si trovano associati negl'individui presi in esame (ad es., statura e perimetro del torace). Se x1, x2, x3,... sono i gradi (quantitativi) del primo carattere, e y1, y2, y3,... i gradi del secondo, il rilievo statistico ci dirà che le coppie di caratteri (x1, y1), (x1, y2), (x2, y1), si presentano in m11, m12, m21,... individui, su n presi in esame, dando luogo alle frequenze

Si potranno rappresentare le osservazioni mediante una tabella a doppia entrata (tavola di correlazione), o, graficamente, elevando nei punti (x1, y1,), (x1, y2), (x2, y1),... di un piano orizzontale delle asticelle verticali aventi le lunghezze (10). Un velo flessibile che si appoggi su quelle asticelle ci dà la superficie di correlazione. Più precisamente se, fondandosi su considerazioni teoriche o empiriche, riusciamo a costruire una superficie z = f(x, y), continua, regolare quant'è possibile, che passi in vicinanza degli estremi di quelle asticelle, diremo che f (x1, y1), f (x1, y2),... sono le probabilità degli accoppiamenti (x1, y1), (x1, y2),... mentre le (10) sono le frequenze. La detta superficie rappresenta la correlazione fra le due variabili casuali x,y, intendendosi con quel nome (Galton, 1886) un legame tale che, assegnato a una delle variabili uno dei valori xi che essa può assumere, restino determinate le probabilità con le quali i valori y1, y2, y3,... dell'altra si associano a quel valore xi. È nota, ad es., la correlazione fra statura e perimetro del torace, se per ogni statura son note le probabilità dei varî perimetri compatibili con essa.

Per certe coppie di variabili casuali la superficie di correlazione è rappresentata abbastanza bene dall'equazione (di A. Bravais, 1846)

che generalizza la curva di Gauss (6), (9); la correlazione si dice allora normale. Tale è, ad es., la correlazione fra le coordinate ortogonali dei punti colpiti sopra un bersaglio, contro il quale furono tirati numerosi colpi con una stessa arma, essendo condotti gli assi per il centro del bersaglio. Orientando opportunamente gli assi si può ottenere che sia b = 0; l'equazione (11) così semplificata trova importanti applicazioni nella balistica esterna.

III. Probabilità nella Fisica.

17. Cenni storici. - Le prime applicazioni del calcolo delle probabilità alla fisica risalgono alla metà del secolo scorso e riguardano la teoria cinetica dei gas e la termodinamica. Nella dimostrazione della legge, secondo la quale si ripartiscono le velocità delle molecole di un gas, data da J. C. Maxwell (1859-1866) e ripresa da L. Boltzmann (1872), comparisce più il nome che il concetto di probabilità. Ma il concetto interviene esplicitamente nella seconda via esposta subito dopo dal Boltzmann stesso per giustificare la detta legge; poiché questa via ha assunto una grande importanza nella meccanica statistica (sia classica sia quantistica), ne daremo un cenno qui sotto. Negli enunciati della fisica quantistica odierna (dal 1925 in poi) entra in modo sistematico la probabilità, in una forma però che difficilmente si riattacca alla nozione classica (vedi quanti, teoria dei; quantistica, meccanica).

18. Cenno sopra un problema della meccanica statistica. - Un problema fondamentale della meccanica statistica si può, dal punto di vista del calcolo delle probabilità, schematizzare così. Si dispone di un sistema di n elementi (molecole, atomi, elettroni,...), ciascuno dei quali si può trovare nell'uno o l'altro di m stati (livelli di energia, gradi di velocità, ecc.); a ciascuno stato possono appartenere zero, uno o più elementi. Qual'è la probabilità che in un istante fissato, a1 elementi appartengano al primo stato, a2 al secondo,..., am all'ultimo? Qual'è la ripartizione [a1, a2,..., am] che dà luogo alla probabilità massima? Si suppone naturalmente a1 +, a2 + ... + am = n; si ammette inoltre che ad ogni stato spetti un determinato grado ε1, ε2,..., εm di energia (gradi non necessariamente tutti diversi), e che sia nota l'energia totale E, in guisa da avere la seconda condizione α1ε1 + α2ε2 + ... + αmεm = E. Perché il problema sia determinato occorre premettere un'ipotesi di equiprobabilità. La fisica odierna insegna che a differenti problemi possono corrispondere diverse ipotesi, o come si suol dire, diverse statistiche.

a) Nella statistica di Boltzmann si ammette che la probabilità p che uno degli n elementi appartenga a uno degli m stati sia la stessa, qualunque sia l'elemento o lo stato; e a diversi elementi o stati corrispondano probabilità indipendenti. In questa ipotesi è pn la probabilità che gli n elementi presi in ordine prefissato appartengano a quegli stati. Ma se non interessa sapere quali degli n elementi compongano il primo gruppo di a1, quali il secondo gruppo di a2, ecc., la probabilità della ripartizione [a1, a2,..., am] assume il valore

La ripartizione più probabile corrisponde a quei valori delle ar. (r = 1, 2,..., m) che, soddisfacendo le due condizioni scritte sopra, rendono massima l'espressione di P. Supposti n, m grandissimi, si trova la soluzione

dove e è la base dei logaritmi naturali e α, β sono due costanti positive, che si determinano tenendo conto delle due condizioni lineari a cui devono soddisfare le ar. La (13) si può ancora precisare quando si sappia se le εr sono distinte o no. Nella teoria cinetica dei gas (supposto che gli elementi siano molecole con tre gradi di libertà) il numero delle ε1, ε2,... che hanno uno stesso valore ε è proporzionale a ε, e le molecole aventi la forza viva ε sono in numero di

è questa la legge di Maxwell. Invece nella teoria dell'irraggiamento di M. Planck le ε sono tutte diverse ed è εr = rhv, ove h è la costante di Planck e v è la frequenza della radiazione considerata, ecc.

b) Nella statistica di Bose-Einstein si considera la probabilità che a uno stato prefisso appartengano alcuni degli n elementi, e si suppone che questa probabilità non dipenda dal numero dei detti elementi (che può avere i valori 0, 1, 2,..., n), né dallo stato preso in esame. In questa ipotesi si dimostra che, nella ripartizione più probabile, il numero degli elementi che posseggono l'energia ε è dato da

dove α e β sono costanti positive e με il numero degli stati ε1, ε2,... ai quali spetta l'energia ε.

c) Nella statistica di Fermi-Dirac, si ammette che a ciascuno stato possano appartenere o nessuno o un solo elemento, con la stessa probabilità. La ripartizione più probabile si ha quando il numero degli elementi che posseggono l'energia ε è dato da

con lo stesso significato di α, β, με.

Qualunque sia la statistica suggerita dalla natura del problema fisico, si ammette che la ripartizione che ordinariamente si verifica (ripartizione stabile) sia quella a cui compete la probabilità massima. Dal punto di vista del calcolo delle probabilità si può immaginare una collezione estremamente numerosa di modelli, ciascuno composto di n elementi, distribuiti in m stati con energia totale E; ciascun modello entra nella collezione un numero di volte proporzionale alla rispettiva probabilità. Se si estraesse a sorte un modello della collezione, si troverebbe ordinariamente un modello avente probabilità massima o prossima al massimo. Si ammette che la natura fornisca di solito questo modello quando manchino cause perturbatrici; e si ammette che una configurazione poco probabile tenda spontaneamente, con lo scorrere del tempo, verso configurazioni sempre più probabili. Spetta alla meccanica o alla fisica di giustificare queste ipotesi.

Bibl.: Sulle probabilità dal punto di vista filosofico si vedano, tra gli altri: P.-S. Laplace, Essai philosophique des probabilités, Parigi 1814, 6ª ed. 1840; J. v. Kries, Die Prinzipien der Wahrscheinlichkeitsrechung, Tubinga 1927; E. Czuber, Die philosophischen Grundlagen der Wahrscheinlichkeitreschnung, Lipsia 1923. - Trattati moderni: G. Castelnuovo, Calcolo delle probabilità, voll. 2, Bologna 1926-1928; J. Bertrand, Traité de calcul des probabilités, Parigi 1889; H. Poincaré, Calcul des probabilités, 2ª ed., ivi 1911; E. Borel, Traité du calcul des probab. et des applications (opera in quattro tomi, ciascuno diviso in varî fascicoli redatti dal Borel e da molti collaboratori), ivi 1925 segg.; E. Czuber, Wahrscheinlichkeitsrechnung und ihre Anwendung auf Fehlerausgleichung Statistik und Lebensversicherung, voll. 2, 5ª ediz., Lipsia 1932; R. v. Mises, Wahrscheinlichkeitsrechnung und ihre Anwendung in d. Statistik und theor. Physik, Vienna 1931.

IV. Applicazioni alla statistica.

1. Nella trattazione che precede, il calcolo delle probabilità è stato fra l'altro, applicato a indagare (v. sopra: n. 14) se, avendo trovato, con l'osservazione statistica, che in z gruppi di n elementi ciascuno, tratti da una collettività, un dato carattere si è presentato con certe frequenze, le

possano essere considerate come analoghe alle frequenze con cui si presenterebbero palle bianche in z gruppi di n estrazioni ciascuno, da un'urna in cui le palle bianche fossero in una proporzione costante p; oppure se tale analogia manchi, e le (1) siano, invece, assimilabili eventualmente alle frequenze che si avrebbero da schemi di estrazioni da urne meno semplici di quello indicato. Se una tale assimilazione è possibile, essa potrà suggerire un'interpretazione del fenomeno che si studia, non soltanto nel caso più ovvio, in cui, dunque, la proporzione p costituirà, come è stato detto precedentemente, una costante naturale del fenomeno stesso, ma anche quando l'assimilazione abbia luogo con schemi più complicati, cioè con leggi di probabilità diverse da quella normale; e questi schemi daranno attendibilmente ragione del meccanismo secondo il quale il fenomeno si produce. Se, per es., la (1) presentasse una dispersione supernormale, potrebbe darsi che l'assimilazione fosse possibile con lo schema di estrazione da un'urna, nella quale le palle bianche fossero riunite in grappoli, e similmente lo fossero le altre palle: questa possibilità suggerirebbe un'interpretazione del fenomeno, in quanto porterebbe a ritenere che il verificarsi dell'evento paragonato all'estrazione di palla bianca faciliterebbe, in certa misura, il successivo verificarsi dell'evento stesso e il non verificarsi faciliterebbe il successivo non verificarsi (p. es.: probabilità di contrarre malattie contagiose).

2. Considerata la distribuzione di una collettività di elementi secondo le intensità di un certo carattere quantitativo da essi posseduto (serie eterograda), è stato detto (v. sopra: n. 15), che la curva normale della probabilità

può essere, spesso, convenientemente impiegata come curva perequatrice di quella distribuzione; mentre, altre volte, la perequazione può farsi ricorrendo ad altri tipi di curve (per la perequazione, v. statistica). A tale proposito è importante osservare che l'assimilazione, in un certo senso, alla curva normale (2) si può talvolta ottenere mediante un'opportuna trasformazione ψ (x) eseguita sulla variabile indipendente x, che rappresenta il carattere quantitativo assunto per eseguire la distribuzione, mentre y è la densità della frequenza. La curva di frequenza viene allora ad avere come equazione:

e, effettivamente, una curva siffatta si presta bene a rappresentare, per es., quelle distribuzioni nelle quali gli effetti delle cause accidentali non sono da ritenere indipendenti dal valore del carattere, ma proporzionali a tale valore, nel qual caso è da assumere ψ (x) = log x. La (3) venne proposta dal MacAlister, e interpretata nel senso accennato dal Gibrat, dal d'Addario e da altri. In quest'ordine d'idee si deve pure rilevare che anche talune curve di distribuzione diverse da quella normale della probabilità possono ricevere interpretazioni di carattere probabilistico: tali sono, per la curva di distribuzione dei redditi globali, l'interpretazione di F. P. Cantelli e i successivi contributi di F. Vinci. In tutti questi casi, nei quali, dunque, sussiste l'assimilabilità di una curva di distribuzione a un certo tipo analitico di curva, si può parlare di stabilità di una tale distribuzione; allo stesso modo che si potrebbe parlare di stabilità di una serie di frequenze omograda tutte le volte che essa si può fare rientrare in un conveniente schema di estrazioni da un'urna, benché s'intenda usualmente per stabilità il conformarsi allo schema di Bernoulli.

3. Un terzo ordine di problemi statistici di cui è fatta menzione in precedenza (n. 16) è quello delle serie eterograde a due variabili (v. anche correlazione). A tale argomento può essere data un'impostazione più generale, considerando serie statistiche dipendenti da due caratteri, che possono essere quantitativi, o qualitativi, o infine uno quantitativo e l'altro qualitativo. Una serie siffatta, ottenuta classificando gli N elementi osservati a seconda delle modalità o eventualmente del grado dei due caratteri x e y, si potrà schematizzare in un prospetto della forma sottoindicata (che si usa dire tavola di contingenza se x e y sono qualitativi, e di correlazione se uno almeno di tali caratteri sia quantitativo), dove è denotato con mji il numero dei termini nei quali .x e y assumono rispettivamente le modalità xi e yi, con xi il numero dei termini in cui la x assume le modalità xi e con λj il numero dei termini in cui y assume le modalità yj.

Il primo problema che può essere posto per tali serie è quello stesso enunciato nella trattazione precedente e nella voce correlazione, e cioè di constatare e di misurare se e di quanto le modalità di un carattere abbiano influenza sul subordinato modo di distribuirsi dei termini a seconda delle modalità dell'altro carattere, se cioè, p. es., assumendo x le modalità x1, x2,..., xi,..., le corrispondenti serie di frequenze relative desunte dalle varie colonne:

siano oppure non siano, e in qual grado, uguali fra loro e alle serie di frequenze:

Poiché, invece di formare lo specchio (4), si potrebbero rappresentare in una linea le N modalità (anche uguali, talune, fra loro) assunte da x e in un'altra linea le corrispondenti modalità assunte da y, così il problema enunciato si potrebbe pure, per quanto più vagamente, esprimere dicendo che si tratta di constatare e di misurare se e fino a qual punto le singole modalità assunte da x abbiano influenza sulle singole modalità corrispondenti di y. Ma ci riferiremo alla prima forma di rappresentazione, che è più chiara, e diremo che il problema posto è quello di constatare se fra x e y esista connessione e, in caso affermativo, di misurarne il grado. Sono stati ideati indici che assumono il valore zero, quando la connessione sia nulla, che assumono o tendono ad assumere il valore 1, quando essa sia massima, cioè quando a ogni modalità (qualitativa o quantitativa) di x corrisponda una sola modalità di y, e che assumono gli altri valori intermedî, quando la connessione sia più o meno rigida.

Uno di tali indici (di connessione), valido, però, soltanto se uno almeno dei caratteri sia quantitativo, è il rapporto di correlazione di K. Pearson (v. correlazione); un altro, sempre valido, è l'indice di connessione di C. Gini; un terzo, l'indice di dipendenza di G. Mortara. Un altro indice di connessione, sempre valido, nel quale si utilizza il concetto di probabilità, è il coefficiente di contingenza di Pearson. Per definirlo si noti che, se fra x e y non esistesse connessione, il numero mji di elementi appartenenti alla casella j, i dovrebbe essere dato, per il teorema della probabilità composta, dal prodotto di N per la probabilità λj/N che ha un elemento di appartenere alla linea j, per xi/N che è la probabilità che ha un elemento di appartenere alla colonna i, cioè si dovrebbe avere:

Se queste differenze non sono tutte nulle, sarà da presumere una certa connessione fra x e y, tanto più alta quanto maggiore sia l'ammontare totale di tali differenze prese in valore assoluto, e quindi quanto maggiore sia

Ora, si potrebbe dimostrare che, se le modalità distinte che possono assumere x e y sono rispettivamente in numero di α e β, e il legame fra x e y risulta il più stretto possibile, nel senso che a ogni modalità di x corrisponde una sola modalità di y (relazione funzionale), il valore massimo di ϕ2 è √(α−1) (β−1), cosicché l'espressione

varierà da zero (caso d'indipendenza) a 1 (dipendenza funzionale) e costituirà l'indice cercato.

4. Quando e soltanto quando fra x e y esista connessione, si potrà, in taluni casi, e cioè se le modalità di x siano paragonabili con quelle di y (e, in particolare, se x e y siano entrambi quantitativi; oppure uno quantitativo e l'altro qualitativo rettolineare, cioè a modalità susseguentisi in un ordine naturale da una prima fino a un'ultima modalità; oppure se entrambi siano qualitativi della medesima specie), porre l'ulteriore problema se e per quanto esista concordanza fra x e y, nel senso che a modalità di un carattere tendano ad associarsi modalità uguali o corrispondenti oppure non uguali o non corrispondenti dell'altro, e anche nel senso che, supposti x e y quantitativi, al crescere di un carattere l'altro tenda a crescere (oppure a decrescere: concordanza negativa o discordanza). Questa distinzione fra connessione e concordanza, stabilita esplicitamente dal Gini, dà luogo al problema di costruire indici idonei alla misura della concordanza, tali, generalmente, da poter variare da − 1 a + 1, per significare con +1 la massima concordanza, con - 1 la massima discordanza (concordanza negativa) e con zero l'assenza di qualsiasi concordanza. Di questa natura sono l'indice di correlazione di Bravais-Pearson, gl'indici di omofilia del Gini, gl'indici di attrazione del Benini e altri. Fra essi, alcuni utilizzano concetti proprî del calcolo delle probabilità.

Così accade per l'indice di attrazione di R. Benini. Se, p. es., N matrimonî si distribuiscono secondo un certo carattere considerato nell'uno e nell'altro sposo come segue:

e si trova che a supera il numero di matrimonî che si dovrebbe avere, se la scelta matrimoniale avvenisse a caso, cioè supera α, essendo

ciò significherà che si è manifestata un'attrazione o preferenza nella scelta fra cattolici e cattoliche, la quale è dal Benini misurata mediante il rapporto fra la differenza a - α e il massimo valore che tale differenza può assumere, compatibilmente ai numeri di sposi e di spose di religione cattolica disponibili per la formazione dei matrimonî considerati. Il massimo valore che a può assumere è, evidentemente, il minimo dei due valori a + b e a + c; cosicché l'indice di attrazione risulta essere:

Se fosse a 〈 α fra sposi e spose di religione cattolica si avrebbe repulsione, e questa si misurerebbe analogamente mediante un indice di repulsione. Di questi indici e del loro campo di applicazione, anche in relazione ad altri indici di concordanza, si occuparono F. Savorgnan e altri; lo stesso Benini costruì nuovi indici per eliminare l'effetto delle combinazioni matrimoniali obbligate.

In quanto agl'indici di omofilia del Gini, che implicano del pari il concetto di probabilità, ne esporremo la struttura mettendo a paragone le stature di N figli con quelle dei rispettivi padri:

Formata la somma M delle differenze assolute fra stature corrispondenti, M =Σ ∣ xiyi ∣, questa potrà variare fra il minimo Mi, che si verificherebbe se le xi e le yi fossero cograduate (massima concordanza), e il massimo M2, che si avrebbe invece se le xi, e yi fossero contrograduate (massima discordanza). D'altra parte, il Gini dimostra anche che il valore probabile della somma delle differenze assolute che si potrebbero formare accoppiando a caso un valore di x con uno di y, un altro di x con un altro di y, ecc., è

dove ΔR (x, y), ΔR (x, y), ΔR, x, ΔR, y sono rispettivamente le differenze medie con ripetizione del sistema totale dei valori di x e y, dei soli valori di x, dei soli valori di y. Secondo che sia M M0 (concordanza) oppure > M0 (discordanza), si assume come indice di omofilia

capaci di variare il primo fra 0 e 1, e il secondo fra 0 e −1.

5. L'indice o coefficiente di correlazione di Bravais-Pearson, valido per caratteri quantitativi (v. correlazione) è:

dove (come nella seconda forma di rappresentazione delle serie a due variabili o mutabili sopra accennata) xi e yi sono valori corrispondenti di x e y, X e Y le rispettive medie aritmetiche, σx e σy gli scarti quadratici medî da X e da Y.

Ora, riprendendo l'equazione (11) data a p. 264 per rappresentare la superficie normale di correlazione, gioverà osservare che tale equazione, nella quale è supposto che l'origine degli assi sia posta nella media aritmetica dei valori di x e in quella dei valori di y, può essere scritta, precisandone la forma:

dove, se le frequenze relative mji N che risultano dalla (4) si prestano a essere rappresentate come ordinate dalla superficie di equazione (13), i tre parametri r, σx, σy che esplicitamente vi figurano hanno appunto i significati ora detti. Inoltre il volume compreso fra questa superficie e il piano xy è uguale a 1, allo stesso modo che

In altri termini, le coppie di valori xi yi, che appaiono nella (4) si presentano con frequenze relative assimilabili alle probabilità fornite da una legge di Gauss generalizzata mediante la (13). Se le serie a due variabili di tipo (4) che si possono formare in riferimento a un determinato fenomeno saranno sempre abbastanza bene rappresentate dalla (13), per certi valori costanti dei parametri, si potrà allora parlare di stabilità del fenomeno considerato, come per un fenomeno dipendente da una variabile si può talora parlare di stabilità (rispetto alla legge normale della probabilità).

Ma una superficie di correlazione, e in particolare la (13), sulla quale ci soffermeremo, può anche essere considerata come atta a definire la probabilità subordinata per y in corrispondenza a ciascun valore di x e viceversa. La (13) si può infatti scrivere:

cosicchè, attribuito a x un certo valore arbitrario ù, ciò che equivale a sezionare la superficie d'equazione (13) con un piano parallelo a zy, si avrà:

che, all'infuori di un fattore costante, rappresenta una curva normale della probabilità, con il valore medio

Altrettanto vale per gli altri piani secanti paralleli al considerato. Si avrebbero altrettante curve normali della probabilità, e i rispettivi valori medî sarebbero tutti disposti sulla retta di equazione (14), che è detta retta di regressione di y rispetto a x, che passa per l'origine e che ha il coefficiente angolare

Nello stesso modo si potrebbero considerare le sezioni della superficie (13) con piani paralleli al piano zx, e corrispondentemente si avrebbe un'altra retta di regressione (di x rispetto a y) con il coefficiente angolare

Inoltre le sezioni della (13) con piani paralleli a xy saranno ellissi che si proietteranno sul piano xy in ellissi di equazione

costituenti un fascio di ellissi concentriche e omotetiche, aventi il centro nell'origine degli assi. Infine lo scarto quadratico medio dei valori di y subordinati a un certo x è, come si vede dalla (13′), σy √1−r2, e quello analogo è σx √1−r2; r = √m1m2 le rette di regressione sono, rispetto alle ellissi (15), niente altro che i diametri rispettivamente coniugati alle direzioni degli assi x e y.

Da tutto ciò segue che se r = 0, le rette di regressione, e quindi i diametri principali delle ellissi, coincidono con gli assi: in corrispondenza a qualunque x, i valori subordinati per y dànno sempre luogo alla stessa distribuzione e viceversa, cosicché sussiste piena indipendenza fra i due caratteri. Se invece r è prossimo a + 1 oppure a −1, le ellissi sono molto allungate (nella direzione della bisettrice del 1° e rispettivamente del 2° quadrante) e quindi i diametri coniugati alle direzioni di y e x, cioè le rette di regressione, sono molto prossime fra loro, di modo che i valori y subordinati ai diversi valori di x (e viceversa) tendono ad addensarsi in una zona molto ristretta del piano, e il legame (stocastico o probabilistico) fra x e y tende a diventare molto stretto e prossimo a un legame funzionale.

6. La superficie di correlazione corrispondente a una certa serie statistica a due dimensioni sarà, però, generalmente diversa dalla superficie normale, la cui equazione è la (13); nondimeno, anche in tal caso, si potrà calcolare il coefficiente di correlazione (12), per quanto esso abbia allora un significato meno evidente di quello che aveva rispetto alla superficie normale. Dall'essere r prossimo a 0, +1, −1, si concluderà ancora che x e y tendono a variare uno indipendentemente dall'altro oppure concordemente, oppure discordemente. Inoltre si potrà ancora dire che al variare di x i corrispondenti valori medî di y si disporranno sopra una linea (non retta in generale) costituente la linea di regressione di y in x; e similmente, al variare di y, i corrispondenti valori medî di x costituiranno una linea di regressione di x in y. Nel caso di massima connessione fra i due caratteri x e y queste linee verranno a coincidere in una sola, immagine del legame funzionale fra x e y. Un legame funzionale fra x e y, per cui si possa dire "x è causa di y", viene dunque, in quest'ordine d'idee, a essere concepito come limite di un legame stocastico.

7. Altri problemi, appartenenti al calcolo delle probabilità, ma particolarmente interessanti la statistica e le sue pratiche applicazioni, sono quelli concernenti le cosiddette indagini rappresentative (ingl. sampling). Spesso accade che, in luogo di conoscere le modalità di un carattere in tutti gli N elementi di una totalità, si conoscano le modalità stesse in una parte soltanto, presa a caso (campione), di n 〈 N elementi e che si sia quindi indotti ad assumere come indici o quantità caratteristiche della distribuzione totale le corrispondenti quantità caratteristiche (rapporti, medie, momenti, ecc.) del campione. Quale grado di attendibilità si deve attribuire a un certo indice A′, così calcolato, come rappresentativo dell'analogo indice A che si dovrebbe calcolare sulla distribuzione totale? Poiché dalla totalità di N elementi si possono estrarre

campioni di n elementi, e anche campioni con n′ ≠ n elementi, così A′ potrà variare da campione a campione, e s'intuisce, anzi, che la sua presumibile differenza assoluta da A (errore) dipenderà sia da n, sia dalla maggiore o minore variabilità del carattere nella distribuzione totale: sarà da attendersi che l'errore di A′ sia generalmente minore, quanto più n sia prossimo a N e quanto minore sia quella variabilità. Si pensino tutti i possibili campioni di n elementi estratti dalla totalità di N, e si supponga di calcolare l'indice in questione per ciascun campione, ottenendo A1′, A2′,..., Ai′,.... La media quadratica s (v. media) degli scarti di tali valori da A è ciò che si dice errore quadratico medio dell'indice A′ ricavato da uno qualunque dei detti campioni. Se poi gli scarti stessi si distribuiscono simmetricamente e secondo la legge normale, allora è praticamente certo che A′ sia compreso fra A ∓ 3 s, e anche, ciò che appunto interessa, che A sia compreso fra A′ ∓ 3 s. Si tratterà poi di determinare, per ciascun particolare indice, la forma di s.. Ecco alcuni esempî:

a) In una popolazione di N individui, di cui parte dotati di un certo attributo, qual'è la probabilità p che un individuo, preso a caso, sia provvisto del carattere stesso? Per rispondere esattamente converrebbe enumerare gl'individui dotati di tale carattere. Se, per risparmio di tempo o di spesa, si eseguisce invece un'indagine parziale sopra un campione di n individui presi a caso e se ne trovano a provvisti di quel carattere, se cioè la frequenza osservata per il carattere è f = a/n, è praticamente certo che la probabilità p sarà compresa fra:

dove il radicale (quando n sia grande in sé. ma piecolo rispetto a N) può essere praticamente sostituito da

b) Da una popolazione di N individui, in cui un certo carattere quantitativo ha un valore medio incognito A, se ne sono tratti n a caso, e si è constatato che in questi il valore medio del detto carattere è A′. Si può allora dimostrare essere praticamente certo che A è compreso fra

dove σ′ è lo scostamento quadratico medio del carattere dalla sua media aritmetica osservato nel campione, e dove il secondo radicale può essere soppresso, quando n sia trascurabile rispetto a N. Il problema a) può riguardarsi caso particolare di b).

c) Nello stesso ordine d'idee, e purché n sia trascurabile rispetto a N, l'errore quadratico medio dello scarto quadratico medio σ′ tratto da un campione di n elementi è

quello dell'indice di correlazione r′, tratto pure da un campione di n elementi, è

8. Per altre applicazioni del calcolo della probabilità alla statistica, si rimanda al classico trattato di G. Castelnuovo. Debbono anche ricordarsi, a tale proposito, le fondamentali ricerche compiute da F. P. Cantelli e dalla sua scuola, che presero le mosse da una rigorosa definizione di variabile casuale e che culminarono nella cosiddetta "legge uniforme dei grandi numeri".

Bibl.: W. F. Sheppard, On the Application of the Theory of Error to Cases of Normal Distribution and Normal Correlation, in Phil. Trans., 1898; R. Benini, Principi di demografia, Firenze 1901; id., Gruppi chiusi e gruppi aperti in alcuni fatti collettivi di combinazioni, in Bull. de l'Inst. intern. de stat., XXIII, Cairo 1928; K. Pearson, On the Probable Errors of Frequency Constants, in Biometrica, II (1903); id., On the general Theory of skew Correlation and non linear Regression, in Draper's Company Research Memoirs, Biometric Series, II, Londra 1905; G. Mortara, Indici di simpatia nella scelta matrimoniale, in Giornale degli economisti, 1908; F. P. Cantelli, Intorno ad un teorema fondamentale della teoria del rischio, in Boll. Assoc. attuari ital., 1913; id., A proposito dell'ordine e dei limiti delle serie statistiche, ibid., 1913; id., Sullo schema lexiano della dispersione ipernormale, in Mem. Acc. Lincei, Roma 1918; id., Sulle applicazioni delle probabilità parziali alla statistica, in Giorn. di matem. finanz., 1919; id., Sulla legge di distribuzione dei redditi, in Giorn. degli econom., 1929; id., Considérations sur la convergence dans le calcul des probabilités, in Annales de l'Institut H. Poincaré, Parigi 1935; C. Gini, Nuovi contributi alle teorie delle relazioni statistiche, in Atti del R. Ist. ven. di lett. sc. e arti, 1914-15, parte 2ª; id., Indici di omofilia e di rassomiglianza e loro relazioni col coefficiente di correlazione e con gli indici di attrazione, ibid.; A. L. Bowley, Elements of Statistics, 4ª ed., Londra 1920; id., Measurement of the Precision attained in Sampling, in Bull. de l'Inst. intern. stat., XXII (1926); G. U. Yule, An Introduction to the Theory of Statistics, Londra 1922; G. Castelnuovo, Calcolo delle probabilità, Bologna 1928-29; C. Gini e L. Galvani, Di un'applicazione del metodo rappresentativo al censimento italiano della popolazione, 1° dicembre 1921, in Annali di statistica, Roma 1929; A. Julin, Sur la méthode représentative en statistique, in Bull. de l'Instit. des sciences économ. de Louvain, Lovanio 1932; F. Savorgnan, La misura dell'endogamia e dell'omogamia, in Atti del Congr. intern. per gli studi sulla popolazione, X, Roma 1934.