Un compilatore è un programma informatico che traduce una serie di istruzioni scritte in un determinato linguaggio di programmazione (codice sorgente) in istruzioni di un altro linguaggio (codice oggetto): il processo di traduzione si chiama compilazione mentre l'attività inversa - ovvero passare dal codice oggetto al codice sorgente - è chiamata decompilazione ed è effettuata per mezzo di un decompilatore.

Disambiguazione – Se stai cercando l'omonima professione editoriale, vedi Curatore editoriale.
Disambiguazione – "Compilazione" rimanda qui. Se stai cercando il tipo di album, vedi Compilation.
Thumb
Schema che illustra il funzionamento di un compilatore ideale.

Se tutti i compilatori aderissero esattamente alla specifica del linguaggio, lo stesso programma potrebbe essere compilato senza modifiche da ciascun compilatore, producendo risultati semanticamente uguali, ovvero programmi che producono lo stesso risultato se sottoposti agli stessi dati di ingresso. Nella realtà, molti compilatori implementano il linguaggio in modo incompleto o aggiungono estensioni proprietarie, creando quindi dei dialetti del linguaggio principale. Per i linguaggi che adottano uno standard nella decorazione dei simboli, il codice oggetto generato da compilatori differenti può essere collegato assieme in un unico eseguibile.

Storia

A partire dal 1950 vennero sviluppati diversi compilatori sperimentali (tra cui l'A-0 System di Grace Hopper), ma nel 1957 il team Fortran presso l'IBM, guidato da John Backus, fu il primo a realizzare un compilatore completo mentre, nel 1960, il COBOL fu uno dei primi linguaggi a essere compilato su più architetture.[1]

L'idea della compilazione prese velocemente piede e molti dei principi di design dei compilatori vennero sviluppati negli anni sessanta. Un compilatore è esso stesso un programma scritto in un qualche linguaggio e, i primi di essi vennero scritti in Assembly. Il primo compilatore auto-compilato, capace cioè di compilare il suo stesso codice, fu creato per il linguaggio Lisp da Hart e Levin presso il MIT nel 1962.[2] L'uso di linguaggi ad alto livello per scrivere i compilatori ebbe una accelerazione nei primi anni settanta quando i linguaggi Pascal e C furono usati per scrivere compilatori per loro stessi: ossia, ad esempio, furono scritti compilatori per il C scritti a loro volta in C.

Descrizione

Lo stesso argomento in dettaglio: Codice sorgente e Codice oggetto.

Quando un linguaggio di programmazione viene definito per la prima volta, sorge il problema di come realizzare il relativo compilatore. In questo caso esistono due approcci possibili:

  • scrivere il compilatore in un linguaggio diverso;
  • oppure - se esiste già un interprete per il nuovo linguaggio - è possibile sfruttarlo per scrivere una prima versione del compilatore, che verrà usata (dandogli in input il codice sorgente di sé stesso) per ottenere un primo compilatore funzionante in linguaggio macchina, che quindi renderà inutile l'uso dell'interprete. Il compilatore così ottenuto potrà essere usato per scrivere a sua volta compilatori migliori, e così via.

Funzionamento

Thumb
Fasi tipiche della compilazione.

Il compilatore prende in ingresso un programma, il codice sorgente, su cui esegue una serie di operazioni in modo da ottenere, in assenza di errori, il codice oggetto. In generale i compilatori sono in grado di riconoscere alcune classi di errori presenti nel programma, e in alcuni casi di suggerire in che modo correggerli.

I compilatori attuali dividono l'operazione di compilazione in due stadi principali il front end e il back end. Nello stadio di front end il compilatore traduce il sorgente in un linguaggio intermedio (di solito interno al compilatore); nello stadio di back end avviene la generazione del codice oggetto.

Stadio di front end

Questo stadio si suddivide in più fasi:

  • Analisi lessicale Attraverso un analizzatore lessicale, spesso chiamato scanner o lexer, il compilatore divide il codice sorgente in tanti pezzetti chiamati token. I token sono gli elementi minimi (non ulteriormente divisibili) di un linguaggio, ad esempio parole chiave (for, while), nomi di variabili (pippo), operatori (+, -, «).
  • Analisi sintattica L'analisi sintattica prende in ingresso la sequenza di token generata nella fase precedente ed esegue il controllo sintattico. Il controllo sintattico è effettuato attraverso una grammatica. Il risultato di questa fase è un albero di sintassi.
  • Analisi semantica L'analisi semantica si occupa di controllare il significato delle istruzioni presenti nel codice in ingresso. Controlli tipici di questa fase sono il type checking, ovvero il controllo di tipo, controllare che gli identificatori siano stati dichiarati prima di essere usati e così via. Come supporto a questa fase viene creata una tabella dei simboli (symbol table) che contiene informazioni su tutti gli elementi simbolici incontrati quali nome, scope, tipo (se presente) etc. Il risultato di questa fase è l'albero sintattico astratto (AST).
  • Generazione del codice intermedio: Dall'albero di sintassi viene generato il codice intermedio.

Stadio di back end

Anche lo stadio di back end si divide in più fasi:

  • Ottimizzazione del codice intermedio.
  • Generazione del codice target: in questa fase viene generato il codice nella forma del linguaggio target. Spesso il linguaggio target è un linguaggio macchina.

Schema riassuntivo

Ulteriori informazioni , ...
FlussoAttività
Codice sorgenteEditing
Analizzatore lessicale Analisi lessicale
Token
Analizzatore sintatticoAnalisi sintattica
Albero di sintassi
Analizzatore semanticoAnalisi semantica
Albero di sintassi astratta
Generatore di codice intermedio
codice intermedio
Ottimizzatore codice intermedio
codice intermedio
Generatore codice target
codice target
Chiudi

Note

Bibliografia

Voci correlate

Altri progetti

Collegamenti esterni

Wikiwand in your browser!

Seamless Wikipedia browsing. On steroids.

Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.

Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.