L’ipotesi distributiva propone l’idea che le parole con lo stesso significato siano raggruppate all’interno dei testi. L’idea esamina le parole per il loro significato e la loro distribuzione in un testo. Questo viene poi confrontato con le distribuzioni di parole con significati simili o correlati. Tali esami determinano che le parole ricorrono insieme nel loro contesto a causa dei loro significati simili o correlati.
L’ipotesi distributiva è stata suggerita per la prima volta dal linguista britannico JR Firth. È noto per la citazione più famosa riguardante l’idea “Conoscerai una parola dalla compagnia che mantiene”. Firth, noto anche per i suoi studi sulla prosodia, credeva che nessun sistema avrebbe mai spiegato come funziona una lingua. Invece, credeva che sarebbero stati necessari diversi sistemi sovrapposti.
Il linguista americano Zellig Harris ha costruito sul lavoro di Firth. Voleva usare la matematica per studiare e analizzare i dati linguistici. Le sue idee sul contributo della matematica a tali studi sono importanti, ma è anche noto per aver coperto una vasta gamma di idee linguistiche durante la sua vita.
Gli studi sull’ipotesi distributiva fanno parte dell’esame della linguistica. Per vagliare grandi quantità di dati linguistici vengono utilizzati metodi matematici e statistici, non linguistici. Ciò significa, quindi, che l’ipotesi distributiva fa parte della linguistica computazionale e della semantica statistica. È anche legato alle idee di linguisti e filosofi linguistici sullo sviluppo delle lingue native nei bambini, un processo noto come acquisizione del linguaggio.
La semantica statistica utilizza algoritmi matematici per studiare la distribuzione delle parole. Questi risultati vengono quindi filtrati per significato e ulteriormente studiati per scoprire la distribuzione delle parole legate al significato. Esistono due metodi principali di semantica statistica: distribuzione per cluster di parole e per regione di testo.
Lo studio della distribuzione delle parole per gruppi di significati correlati è chiamato Hyperspace Analog to Language (HAL). HAL esamina le relazioni delle parole raggruppate in un testo. Questo può essere all’interno di una frase o all’interno di un paragrafo, ma raramente più lontano di così. La distribuzione semantica delle parole è determinata dalla frequenza con cui le parole si trovano una accanto all’altra.
Gli studi di testo intero utilizzano l’analisi semantica latente (LSA). Questo è un metodo di elaborazione del linguaggio naturale. Le parole con un significato stretto si presenteranno l’una vicino all’altra in tutto il testo. Tali testi vengono esaminati per cluster utilizzando un metodo matematico chiamato Singular Value Decompression (SVD).
I dati raccolti dagli studi sull’ipotesi distributiva vengono utilizzati per studiare gli elementi costitutivi della semantica e delle relazioni tra le parole. Andando oltre un approccio strutturalista, l’ipotesi può essere applicata all’Intelligenza Artificiale (AI). Ciò aiuterebbe i programmi per computer a comprendere meglio la relazione e la distribuzione delle parole. Ha anche implicazioni sul modo in cui i bambini elaborano le parole e creano associazioni di parole e frasi.