STATISTICA LINGUISTICA

Enciclopedia Italiana - III Appendice (1961)

STATISTICA LINGUISTICA

Tullio DE MAURO

. È l'applicazione del metodo statistico all'esame dei fatti linguistici: le unità costitutive di una lingua (fonemi, parole, ecc.), soprattutto considerate sotto il profilo della frequenza con cui appaiono nei testi, costituiscono un tipico insieme di fenomeni di massa e sono perciò suscettibili di indagini statistiche per rilevare le frequenze medie del loro distribuirsi nel discorso e, nel tempo, le eventuali trasformazioni di tali frequenze.

Fino a qualche decennio fa la linguistica ha trascurato le analisi statistiche, poiché, come bene si è osservato (M. Cohen, J. Whatmough), prevalendo l'interesse per il divenire (diacronia) e, più ancora che per il divenire, per la genesi degli elementi linguistici, l'unico metodo ritenuto adeguato era quello storico-comparativo, che perciò dominava su ogni altro tipo di considerazione dei fatti linguistici. Le ricerche statistiche applicate a tali fatti restarono pertanto affidate alle cure di studiosi di altri campi, sicché, oltretutto, esse si presentavano soggette a interessi che, forse produttivi altrove, sembravano comunque estranei all'apprezzamento linguistico dei fenomeni: interessi inerenti alla psicologia (F. Galton, C. G. Jung), alla pedagogia (E. L. Thorndike), alla tecnica della costruzione delle macchine per scrivere e alla stenografia (F. W. Kaeding, J. B. Estoup), alla pura metodologia statistica (A. Markoff, M. Boldrini). Lontane dalla linguistica restavano anche le ricerche stilometriche (celebri quelle di W. Lutoslawski su Platone), mosse da problemi di autenticità o cronologia di determinati testi. Del resto anche le ricerche di G. U. Yules e G. K. Zipf, dalle quali si può far datare la nascita della s. linguistica nel senso attuale, dovevano valere nelle intenzioni degli autori come indagini stilometriche a fini filologici o psicometriche. Infine, le rare ricerche di qualche linguista (E. Förstemann, H. Ebeling, L. Roussel), anche se note alle grammatiche meglio informate (H. Hirt, per es., o E. Schwyzer), non avendo carattere sistematico né prospettive metodologiche precise, restavano episodî isolati, esempî estremi di un'acribia fine a sé stessa che non mancava talora di parere esagerata agli stessi autori delle statistiche (Förstemann).

Soltanto un radicale mutamento delle generali prospettive metodologiche ha dato credito all'uso delle s. in linguistica. Le idee saussuriane e strutturalistiche, che del resto sin dal loro apparire trovarono pronta accoglienza presso i linguisti di formazione tradizionale più sensibili alla concreta realtà della lingua (A. Meillet, W. v. Wartburg), producendo con il loro diffondersi il definitivo e consapevole abbandono della visione atomistica dei fenomeni linguistici, hanno portato in primo piano, accanto al problema della determinazione, mercé la comparazione, delle forme anteriori o originarie di una unità linguistica, quello dell'analisi "integrale" degli elementi: prescindere affatto e talora dichiaratamente dai contesti sintagmatici e dal sistema paradigmatico entro i quali ed in grazia dei quali soltanto una unità funziona, non pare più legittimo. Al contrario, occorre considerare l'unità nelle interrelazioni che la legano alle altre unità cofunzionali nel sistema e nel sintagma: a questo punto, il ricorso a computi statistici che accertino le modalità del funzionamento di una unità e la frequenza con cui tali modalità si manifestano, da episodico che era, diventa indispensabile. E come tale lo qualificavano i linguisti praghesi sin dalle prime pagine delle Thèses con cui si presentarono, trent'anni or sono, al primo congresso internazionale degli slavisti (Trav. Cerc. Ling. Prague, I [1929], p. 11).

Gli anni seguenti hanno ancor più consacrato l'uso delle s. in linguistica: dalla fonematica, dove esso giova a determinare il rendimento funzionale dei singoli fonemi e delle opposizioni, alla semantica e stilistica, in cui i metodi introspettivi e subiettivi vanno cedendo il campo ad altri che, più rispettosi dei dati formali, trovano strumenti tanto obiettivi quanto duttili nelle teorizzazioni di P. Guiraud e dello Zipf (v. oltre). Nella sintassi, dopo l'eliminazione delle spurie categorie ontologiche ed universalistiche, prevalgono ormai largamente le analisi o esclusivamente formali e distribuzionali (Z. S. Harris) o funzionali su base formale distribuzionale e sintagmatica (W. Belardi, E. Benveniste, H. Buyssens, A. W. De Groot, J. Fourquet, J. Gonda): comunque orientate, esse non possono non giovarsi dell'uso di computi statistici. Tutto ciò riconobbe il congresso di linguistica di Parigi (1948) quando, con voto unanime, auspicò l'uso sistematico delle s. come complemento di qualsiasi descrizione linguistica.

Le ricerche statistiche del passato sono state in buona parte volte alla compilazione, a fini pedagogici, tecnici, ecc., di dizionarî dell'uso corrente di molteplici lingue: tali dizionarî sono costituiti da liste di vocaboli ordinati secondo la frequenza decrescente con cui appaiono nei testi (naturalmente in gruppi di testi, oscillanti tra 100.000 e oltre un milione di parole); il posto (rango) che i vocaboli occupano in tali liste è designato con una numerazione progressiva che va da 1 (rango del vocabolo di frequenza massima) a n (rango del vocabolo di frequenza minima). Si noti che per vocabolo alcuni (Guiraud) intendono l'unità lessicale, altri (Zipf, B. Mandelbrot) le singole diverse forme che una stessa unità lessicale può assumere in ragione della flessione. L'esame delle liste di frequenza dei vocaboli, così come il computo delle frequenze dei fonemi, ha posto in luce una serie di leggi costanti di indubbio interesse.

a) Legge di Zipf-Martinet sulla frequenza e articolazione di un fonema: quanto più un fonema è frequente tanto meno esso tende ad essere nettamente articolato (probabilmente perché minore è la sua capacità di informare sulla identità dei fonemi seguenti).

b) Legge armonica di Zipf-Estoup sulla relazione tra il rango di un vocabolo e la sua frequenza: il prodotto della frequenza (f) per il rango (r) è, per una data lista, costante, ossia frequenza e rango sono inversamente proporzionali:

c) Legge canonica di Mandelbrot: la precedente legge di Zipf può essere formulata più rigorosamente determinando la frequenza o probabilità di un vocabolo (Pr) in funzione del rango (r), tenendo però anche conto dei parametri relativi alla "varietà" (delle frequenze dei vocaboli: ρ) ed alla "temperatura informazionale" (uso sufficientemente frequente degli elementi più rari: B) del testo:

La legge di Zipf evidentemente si verifica per ρ = O e B = 1, P essendo una costante.

d) Legge di Zipf-Guiraud sul numero di fonemi medio proprio di parole di eguale frequenza media: il numero di fonemi (k) di una data parola è direttamente proporzionale al suo rango e cioè decresce col crescere della frequenza della parola; più esattamente si ha:

e) Legge di Zipf sul numero dì parole di eguale frequenza: un testo (v. oltre) è di solito costituito per la maggior parte da un ristretto numero di parole di elevata frequenza e in parte minima da numerosissime parole di bassa frequenza; più esattamente il numero di parole di egual frequenza (n) è inversamente proporzionale al quadrato delle frequenze (f):

f) Legge di Zipf sulla relazione tra frequenza e significato di una unità linguistica: le parole che hanno maggiore frequenza (F) sono semanticamente più generiche, cioè maggiore è il numero dei significati (m) ad esse attribuiti, rispetto alle parole di minore frequenza:

Nella formulazione di Guiraud (in cui f rappresenta la frequenza in cifre assolute relativamente ad una data lista) si ha:

L'importanza di queste leggi per la linguistica descrittiva e storica (si pensi alle leggi a e d), ma anche per la linguistica generale, è evidente. Il significato complessivo può essere riassunto con un esempio. Si supponga di avere una lista di frequenza comprendente 50.000 parole: le prime 100 parole costituiscono oltre il 60% dei testi da cui la lista è ricavata; le prime 1000 raggiungono l'85 e le prime 4.000 il 97,5%. Le residue 46.000 parole costituiscono a mala pena il 2,5% di tutti i testi. Il dislivello delle frequenze è imponente: meno forte, ma sempre relativo ad esso, è quello del numero dei significati e dei fonemi: le 100 parole più frequenti sono, rispetto alle altre, assai più generiche semanticamente e brevi fonematicamente. In tutto ciò si manifesta quella "economia" linguistica che, secondo la formulazione di A. Martinet, consiste appunto in un equilibrio dinamico "tra le esigenze espressive che richiedono unità più numerose, più specifiche e relativamente meno frequenti, e l'inerzia naturale che spinge verso un numero più ristretto di unità più generali e di impiego più frequente". Va infine sottolineato l'interesse della legge di Zipf sul significato: essa consente di giustificare il passaggio dalle analisi di tipo meramente distribuzionale e formale (Harris) all'analisi semasiologica delle unità lessicali e sintattiche.

Bibl.: Per scritti anteriori al 1953 cfr. P. Guiraud-J. Whatmough, Bibliographie critique de la stat. ling., Anversa-Utrecht 1954; dal 1954 la Bibliographie linguistique dedica un'apposita sezione alla s. linguistica; qui ci si limita pertanto ad indicare le opere che per accessibilità ed aggiornamento bibliografico meglio giovano ad introdurre nelle questioni trattate: Actes du VIe Congr. Internat. Ling., Parigi 1949, pp. 83-91, 379-408, 566-583; G. K. Zipf, Human behaviour and the principle of the least effort. An introduction to human ecology, Cambridge, Mass., 1949; G. A. Miller, Language and communication, New York 1951 (trad. franc., Parigi 1956); P. Guiraud, Les caractères statistiques du vocabulaire, Parigi 1954; B. Mandelbrot, Structure formelle des textes et communication, in Word, X (1954), pp. 1-27, XI (1955), pp. 424-425; G. Herdan, Language as choice and chance, Groninga 1956; K. Knauer, Grundfragen einer mathematischen Stilistik, in Forsch. und Fortschritte, XXXIX (1955), pp. 140-49; J. Whatmough, Language. A modern synthesis, Londra 1956, pp. 11, 73, 171, 199-220, 257, ecc.; L. Apostel, B. Mandelbrot, A. Morf, Logique, langage et théorie de l'information, Parigi 1957; A. Dall'Igna Rodrigues, Eine neue Datierungsmethode der vergleich. Sprachwissens., in Kratylos, II (1957), pp. 1-13 (ivi bibl. sulla glottocronologia); P. Guiraud, Problèmes et méthodes de la statistique linguistique, Dordrecht 1959; G. Herdan, Type-token mathematics, L'Aia 1960; L. Heilmann, Statistica linguistica e critica del testo, in Studi e problemi di critica testuale, Bologna 1961, pp. 173-182.

TAG

Stenografia

Psicologia

Dordrecht

Pedagogia

Groninga