En matemáticas, lógica y ciencias de la computación, un lenguaje formal es un lenguaje cuyos símbolos son primitivos y las reglas para unir esos símbolos están formalmente especificadas.[1][2] Al conjunto de los símbolos primitivos se le llama el alfabeto (o vocabulario) del lenguaje, y al conjunto de las reglas se le llama la gramática formal (o sintaxis). A una cadena de símbolos formada de acuerdo a la gramática se le llama una fórmula bien formada (o palabra) del lenguaje. Estrictamente hablando, un lenguaje formal es idéntico al conjunto de todas sus fórmulas bien formadas.
Por ejemplo, un alfabeto podría ser el conjunto {a,b}, y una gramática podría definir a las fórmulas bien formadas como aquellas que tienen el mismo número de símbolos a que b. Entonces, algunas fórmulas bien formadas del lenguaje serían: ab, ba, abab, ababba, etc., y el lenguaje formal sería el conjunto de todas esas fórmulas bien formadas.
Para algunos lenguajes formales existe una semántica formal que puede interpretar y dar significado a las fórmulas bien formadas del lenguaje. Sin embargo, una semántica formal no es condición necesaria para definir un lenguaje formal, y eso es una diferencia esencial con los lenguajes naturales.
En algunos lenguajes formales, la palabra vacía (esto es, la cadena de símbolos de longitud cero) está permitida, notándose frecuentemente mediante , o .
Las cadenas están formadas por un conjunto de símbolos que pertenecen a un mismo lenguaje, existen dos formas de componer una sentencia o función con los símbolos:
Se pueden utilizar varias operaciones para producir nuevos lenguajes a partir de otros datos. Supóngase que L1 y L2 son lenguajes sobre un alfabeto común. Entonces:
La concatenaciónL1L2 consiste de todas aquellas palabras de la forma vw donde v es una palabra de L1 y w es una palabra de L2
La intersecciónL1&L2 consiste en todas aquellas palabras que están contenidas tanto en L1 como en L2
La uniónL1|L2 consiste en todas aquellas palabras que están contenidas ya sea en L1 o en L2
El complemento ~L1 consiste en todas aquellas palabras producibles sobre el alfabeto de L1 que no están ya contenidas en L1
El cocienteL1/L2 consiste de todas aquellas palabras v para las cuales existe una palabra w en L2 tales que vw se encuentra en L1
La estrellaL1*(Llamada también clausura de Kleene del lenguaje L1) consiste de todas aquellas palabras que pueden ser escritas de la forma W1W2...Wn donde todo Wi se encuentra en L1 y n ≥ 0. (Nótese que esta definición incluye a λ en cualquier L*)
La Clausura positiva L1+ consiste de todas aquellas palabras que pueden ser escritas de la forma W1W2...Wn donde todo Wi se encuentra en L1 y n > 0. (Difiere de la clausura de Kleene ya que contiene a λ si y solo si L1 contiene a λ)
La intercalaciónL1*L2 consiste de todas aquellas palabras que pueden ser escritas de la forma v1w1v2w2...vnwn; son palabras tales que la concatenación v1...vn está en L1, y la concatenación w1...wn está en L2
Sean los lenguajes, de forma tal que para cada entonces esté formado por todas las palabras que pueden surgir de concatenar palabras del lenguaje . Por ejemplo, si , entonces
En base al conceptor anterior pueden definirise la clausuras mencionadas anteriormente:
Por contraposición al lenguaje propio de los seres vivos y en especial el lenguaje humano, considerados lenguajes naturales, se denomina lenguaje formal a los lenguajes «artificiales» propios de las matemáticas o la informática, los lenguajes artificiales son llamados lenguajes formales (incluyendo lenguajes de programación). Sin embargo, el lenguaje humano tiene una característica que no se encuentra en los lenguajes de programación: la diversidad.
El conjunto de lenguajes en general (incluyendo los no formales) es incontable.
Lema 1
El conjunto de lenguajes en un alfabeto no vacío dado es incontable.
Afirmar que un alfabeto es no vacío equivale a que ese alfabeto contenga al menos un símbolo, ergo, basta demostrar que el conjunto de lenguajes en el alfabeto es incontable. Como sabemos, un lenguaje L en es un subconjunto de , esto nos lleva a la conclusión de que, el conjunto de todos los lenguajes en es justamente (el conjunto de todos los subconjuntos o conjunto potencia de ) y es evidente que es infinito (de hecho; contable), también ha sido demostrado que si es un conjunto infinito (contable o incontable), entonces es mayor que porque pasa a ser un conjunto infinito de órdenes del infinito, al ser mayor, no existirá biyección entre y , lo que hace a un conjunto infinito incontable, la prueba ha finalizado. (ver Teorema de Cantor)
Demostración del Teorema 1
Puede derivarse fácilmente que la aseveración delineada en el Teorema 1 es verdadera, porque el conjunto de lenguajes en general es justamente una unión infinita de conjuntos del tipo , donde es un conjunto infinito contable.
Teorema 2
Los lenguajes son conjuntos contables.
Se sabe que un lenguaje en un alfabeto es un subconjunto de y como ya se hizo mención, es infinito contable, por ende, es como mucho un conjunto infinito contable (del mismo tamaño que ), la prueba ha culminado.
Teorema 3
El conjunto de lenguajes formales es contable.
Como sabemos un lenguaje formal puede ser generado por una gramática formal (o de estructura de frase), lo cual implica que todo lenguaje formal puede ser aceptado por una MT, lo que a su vez implica que se puede definir una biyección entre el conjunto de lenguajes formales y el conjunto de las MT´s (debido a la propiedad transitiva de la relación "existe biyección entre y "). Para demostrar el teorema se utilizará el concepto de codificación de MT´s que se introduce en el estudio de las MT´s universales, generalmente se codifica una MT con una función que tiene precisamente como dominio al conjunto de las MT´s (lo llamaremos ) y como codominio , esa función puede ser una biyección si el codominio pasa a ser Y (un subconjunto de ) y como es contable, ese subconjunto también será contable y como existe dicha biyección (entre e ), la aserción ha sido demostrada, prueba concluida.
Los lenguajes formales derivados de un alfabeto que consta de una sola letra, conocida como lenguajes unarios, pueden ser considerados como conjuntos de números naturales, y las cuestiones de la representación de tales conjuntos mediante los dispositivos básicos de la teoría de lenguaje formal forman un tema especial de estudio. Los lenguajes unarios formales son básicamente conjuntos periódicos (Jez & Okhotin, 2007).[3]
Los lenguajes unarios formales son caracterizados por sistemas de ecuaciones de lenguaje de la forma general:
(1)
Con operaciones diferentes y permitidas sobre su lado derecho. Los lenguajes libres de contexto o incontextuales se obtienen mediante el uso de la concatenación y unión del sistema. Como lo dice Jez & Okhotin (2007). Si la concatenación se limita a un solo lado lineal (es decir, cada concatenación que aparece en alguna parte derecha es de la forma w · φ por alguna cadena constante w), entonces las soluciones representan exactamente los lenguajes regulares. Por último, respaldando a los autómatas, como lo demuestra Okhotin (2004), se pueden simular mediante ecuaciones con unión, intersección y concatenación lineal de dos caras.
Cuando hablamos de lenguajes debemos considerar la gramática que los rigen. Barash & Okhotin (2014)[4] nos dicen que las gramáticas libres de contexto se entienden mejor como una lógica para definir la sintaxis de los lenguajes. En esta lógica, las definiciones son inductivas, por lo que las propiedades de una cadena están determinadas por las propiedades de sus subseries. Así es como una regla S → aSb afirma que si una cadena an-1bn1 tiene la propiedad S, entonces las cadenas anbn tienen la propiedad S también. Además de la concatenación, el formalismo de esta lógica incluye una operación de disyunción, representada por tener varias reglas para un único símbolo.
Shapiro, Stewart. «Classical Logic». En Edward N. Zalta, ed. Stanford Encyclopedia of Philosophy(en inglés) (Winter 2009 Edition). «Again, a formal language is a recursively defined set of strings on a fixed alphabet.»