Loading AI tools
particolare formalizzazione del Rasoio di Occam Da Wikipedia, l'enciclopedia libera
Il principio della minima lunghezza di descrizione (MLD) (in inglese minimum description length [MDL] principle) è una formalizzazione del Rasoio di Occam nella quale la migliore ipotesi per un determinato insieme di dati è quella che conduce alla migliore compressione dei dati. La MLD fu introdotta da Jorma Rissanen nel 1978.[1] È un importante concetto nella teoria dell'informazione e nella teoria dell'apprendimento.[2][3][4]
Qualunque insieme di dati può essere rappresentato da una stringa di simboli da un alfabeto finito (diciamo, binario).
[Il principio della MLD] si basa sulla seguente intuizione: qualsiasi regolarità in un determinato insieme di dati può essere usata per comprimere i dati, cioè per descriverlo usando meno simboli di quanto richiesti per descrivere i dati letteralmente". (Grünwald, 1998)[5]
Per selezionare l'ipotesi che cattura la maggior parte della regolarità nei dati, gli scienziati cercano l'ipotesi con la quale si può raggiungere la migliore compressione. Per fare questo, si fissa un codice per comprimere i dati, più generalmente con un linguaggio informatico (Turing equivalente). Un programma per produrre i dati è scritto in quel linguaggio; pertanto il programma rappresenta efficacemente i dati. La lunghezza del programma più breve che produce i dati si chiama complessità di Kolmogorov dei dati. Questa è l'idea centrale della teoria idealizzata dell'inferenza induttiva di Ray Solomonoff.
Tuttavia, questa teoria matematica non fornisce un modo pratico di raggiungere un'inferenza. Le ragioni più importanti di questo sono:
L'MLD tenta di rimediare a questi inconvenienti:
Piuttosto che di "programmi", nella teoria della MLD di solito si parla di ipotesi, modelli o codici candidati. L'insieme di dati consentiti è poi chiamato classe di modelli. (Alcuni autori definiscono la classe di modelli come il modello.) Poi si seleziona il codice per il quale la somma della descrizione del codice e la descrizione dei dati che usano il codice è minima.
Una delle importanti proprietà dei metodi della MLD è che forniscono una salvaguardia naturale contro l'adattamento eccessivo (overfitting), perché attuano un compromesso tra la complessità dell'ipotesi (classe di modelli) e la complessità dei dati considerata l'ipotesi [senza fonte].
Si lancia una moneta 1.000 volte e si registra il numero di teste e di croci. Si considerino due classi di modelli:
Per questa ragione un metodo statistico ingenuo potrebbe scegliere il secondo modello come migliore spiegazione per i dati. Tuttavia, un approccio MLD costruirebbe un unico codice basato sull'ipotesi, invece di usare semplicemente il migliore. Per fare questo, è più semplice usare un codice in due parti nel quale è specificato l'elemento della classe di modelli con la migliore prestazione. Poi si specificano i dati usando quel codice. Occorrono molti bit per specificare quale codice usare; pertanto la lunghezza totale del codice basato sulla seconda classe di modelli potrebbe essere più grande di 1.000 bit. Perciò la conclusione quando si segue un approccio di MLD è la seguente : è inevitabile che non vi siano abbastanza prove per sostenere l'ipotesi della moneta distorta, anche se il miglior elemento della seconda classe di modelli fornisce un miglior adattamento ai dati.
Centrale per la teoria della MLD è la corrispondenza biunivoca tra le funzioni di lunghezza del codice e le distribuzioni di probabilità. (Questo segue dalla disuguaglianza di Kraft-McMillan.) Per una qualsiasi distribuzione di probabilità , è possibile costruire un codice tale che la lunghezza (in bit) di sia uguale a ; questo codice minimizza la lunghezza attesa del codice. Viceversa, dato un codice , si può costruire una distribuzione di probabilità tale che valga lo stesso risultato. (Le questioni di arrotondamento qui sono ignorate.) In altre parole, cercare un codice efficiente si riduce a cercare una buona distribuzione di probabilità, e viceversa.
L'MLD è collegata molto strettamente alla teoria delle probabilità e alla statistica attraverso la corrispondenza tra i codici e le distribuzioni di probabilità menzionata sopra. Ciò ha condotto ricercatori quali David MacKay a considerare l'MLD come equivalente all'inferenza bayesiana: la lunghezza del codice nel modello e la lunghezza del codice del modello e dei dati insieme nella MLD corrispondono rispettivamente alla probabilità a priori e alla verosimiglianza marginale nella cornice bayesiana.[6]
Sebbene il meccanismo bayesiano sia spesso utile nel costruire codici MLD efficienti, la cornice MLD soddisfa anche altri codici che non sono bayesiani. Un esempio è il codice normalizzato della massima verosimiglianza di Shtarkov, che gioca un ruolo centrale nell'attuale teoria della MDL, ma non ha alcun equivalente nell'inferenza bayesiana. Inoltre, Rissanen sottolinea che non dovremmo fare nessuna assunzione circa il processo di generazione di dati veri: in pratica, una classe di modelli è tipicamente una semplificazione della realtà e pertanto non contiene nessun codice o distribuzione di probabilità che siano veri in un qualunque senso oggettivo.[7][8] Nell'ultimo riferimento menzionato Rissanen basa il fondamento matematico della MLD sulla funzione di struttura di Kolmogorov.
Secondo la filosofia della MLD, i metodi bayesiani dovrebbero essere scartati se sono basati su precedenti che condurrebbero a risultati scadenti. I precedenti che sono accettabili da un punto di vista della MLD tendono ad essere favoriti anche nell'analisi bayesiana oggettiva; là, tuttavia, la motivazione di solito è diversa.[9]
La MLD non fu il primo approccio informativo-teorico all'apprendimento; già nel 1968 Wallace e Boulton sperimentarono per primi un concetto correlato chiamato minima lunghezza del messaggio (MLM) (minimum message length [MML]). La differenza tra MDL ed MML è una fonte di perdurante confusione. Superficialmente, i metodi appaiono per la maggior parte equivalenti, ma ci sono alcune differenza significative, specialmente nell'interpretazione:
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.