Lingüística de corpus
De Wikipedia, la enciclopedia encyclopedia
La lingüística de corpus estudia el lenguaje a través de ejemplos de textos reales producidos en el "mundo real". Este método representa un enfoque que infiere un conjunto de reglas abstractas por el cual una lengua natural se gobierna o se refiere a otro idioma. Antiguamente se hacían a mano pero hoy en día los corpus lingüísticos se obtienen mayoritariamente mediante un proceso automatizado.[1]
En la filología forman los corpus aquellos textos, orales o escritos, y los documentos que los contienen, que han sido debidamente recopilados. Estos corpus constituyen las muestras que se utilizan en lingüística aplicada, entre otros, para estudiar y analizar las características del objeto de estudio, pues integran las muestras de los elementos que constituyen la realidad que se quiere observar. Tanto si es oral como escrito, un corpus deberá definirse en función de los objetivos que se persigan con el mismo.
Los partidarios de la lingüística de corpus creen que el análisis lingüístico más fiable se produce en las muestras recogidas en contextos naturales y con una interferencia mínima. Dentro de la lingüística de corpus hay puntos de vista divergentes en cuanto al valor de la anotación de corpus, desde el punto de vista de John Sinclair,[2] que opta por la anotación mínima y permitiendo a los textos "hablar por sí mismos" hasta otros como el del equipo de Survey of English Usage (con sede en la University College, Londres)[3] que apoyan la anotación como un camino hacia una mayor comprensión lingüística y de mayor rigor.