Remove ads
rama específica de la minería de datos De Wikipedia, la enciclopedia libre
La minería de textos es una rama específica de la minería de datos que se refiere al proceso de analizar y derivar información nueva de textos.[1] Por medio de la identificación de patrones o correlaciones entre los términos se logra encontrar información que no está explícita dentro del texto.[2] Los textos que se usan como recursos pueden ser páginas web, libros, correos electrónicos, reseñas de clientes, artículos, entre otros.
La minería de textos es un área multidisciplinaria basada en la recuperación de información, aprendizaje automático, estadísticas y la lingüística computacional.[3] Como la mayor parte de la información (más de un 80%) se encuentra actualmente almacenada como texto, se cree que la minería de textos tiene un gran valor comercial.
La minería de textos y, en general, la minería de datos no son prácticas recientes. En los años sesenta, se empezaron a llevar a cabo actividades estadísticas en empresas que se denominaban data fishing (pesca de datos) y data archaeology (arqueología de datos), que consistían en encontrar relaciones entre los datos pero sin realmente entender el alcance que se podía tener y el uso que se le podía dar a la información obtenida. A comienzos de los años ochenta surgieron los primeros esfuerzos de minería de textos que necesitaban una gran cantidad de esfuerzo humano, pero los avances tecnológicos han permitido que esta área progrese de manera rápida en la última década.[4]
La minería de textos incluye diferentes pasos para completar el proceso deseado. Los pasos se listan a continuación:
Se deben recolectar los datos que se desean estudiar. Pueden ser de diferentes recursos como páginas web, libros, correos electrónicos, reseñas de clientes, artículos, entre otros.[1]
Los datos que se obtienen generalmente deben ser limpiados y estructurados de tal manera que puedan ser usados más adelante. El preprocesamiento incluye eliminar todas las partes del texto que no son necesarias. Por ejemplo, se pueden eliminar las palabras como “y”, “pero”, “es”, que son palabras que no aportan al contenido del texto. Además, se pueden eliminar los signos de puntuación, o incluso reducir las palabras a sus raíces.[5]
Cada término que se encuentra dentro del texto puede ser enriquecido al agregarle una etiqueta. Esta etiqueta puede ser del tipo de Partes del Discurso o POS, por sus siglas en inglés. En este caso, las palabras obtienen una etiqueta que las define como “sustantivos”, “adjetivos”, “adverbios”, entre otros. Otro tipo de etiquetas es el de Entidades Nombradas o NE, por sus siglas en inglés. En este caso las etiquetas que se agregan pueden ser del tipo “personas”, “organizaciones”, entre otras.[5]
Para poder analizar los textos con algoritmos que se emplean a la hora de analizar datos numéricos, como algoritmos estadísticos o de inteligencia artificial, el texto debe ser convertido a números. Esto puede llevarse a cabo convirtiendo los textos en vectores que sean de bits o numéricos.[1]
Cuando ya finalmente se tiene el texto original en una forma numérica, se pueden aplicar diferentes algoritmos para poder extraer lo que se desea.[1] Algoritmos comunes incluyen aquellos que usan los principios estadísticos para extraer información clave o algoritmos de inteligencia artificial.
La minería de datos permite extraer de grandes cantidades de texto información que es relevante y que de otro modo puede que sea casi imposible encontrar. Esta extracción de información puede definir términos dentro del texto y sus relaciones, a la vez que puede mostrar información semántica relevante.[2]
El análisis de sentimientos permite agregarle etiquetas a los términos dentro de un texto de acuerdo con un sentimiento. Por ejemplo, se pueden usar las categorías de positivo, negativo y neutral. Existen dos métodos para realizar este procedimiento:
En este caso se crea un clasificador que prediga una palabra en qué categoría debe ubicarse. Esto se hace usando algoritmos de inteligencia artificial.
Si se tiene un diccionario de palabras para cada categoría, por ejemplo un diccionario para las palabras positivas del español y un diccionario para palabras negativas en español, se puede comparar el texto con ellos para que se le agregue la etiqueta a las palabras dependiendo en qué diccionario se encuentran.[5]
La minería de textos permite agrupar textos de acuerdo con diferentes categorías, identificando características en común entre los textos, lo que facilita la búsqueda o navegación entre extensas cantidades. Generalmente, estas agrupaciones se hacen usando el Aprendizaje Supervisado de Inteligencia Artificial. Existen diferentes métodos de inteligencia artificial que se pueden aplicar en este caso, como lo son:[2]
Por medio de la minería de textos, se puede encontrar una descripción general de lo que hablan una serie de documentos. Existen dos procesos diferentes:
Se generan resúmenes conformados por pedazos de texto extraídos directamente de los textos.
Los resúmenes se generan por texto que no necesariamente está explícitamente contenido en los textos originales sino que se crea un texto nuevo.[2]
La minería de textos permite extraer características de los textos que luego pueden representarse mediante diferentes tipos de visualizaciones para resaltar la información relevante que se encontró. Por ejemplo, una vizualización útil son las nubes de palabras.
La minería de textos tiene muchos campos en donde se pueden encontrar aplicaciones. En primer lugar, se usa en investigación, ya que permite obtener información que de otro modo sería muy difícil o casi imposible de encontrar. Además, se puede usar en negocios debido a que puede utilizarse para tomar decisiones o para responder a consultas de los clientes. Por otra parte, se puede usar en casos de seguridad. Por ejemplo, la minería de textos se utiliza para poder prevenir delitos que se hacen en línea y contra el fraude virtual. Otro campo de acción es para publicadores que tengan grandes bancos de data que requieran de indexación. Esto es el caso en particular para disciplinas científicas en las que hay una gran cantidad de información muy específica en forma de texto escrito. También se puede ver en usos diarios. Un ejemplo de uso diario de la minería de textos es la forma en la que se usa en los correos electrónicos para filtrar el spam.
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.