Loading AI tools
análise textual para extrair informações relevantes através de técnicas estatísticas e de processamento linguístico Da Wikipédia, a enciclopédia livre
Mineração de texto, conhecida também como mineração de dados textuais e semelhante à análise textual, refere-se ao processo de obtenção de informações importantes de um texto. Informações importantes são obtidas normalmente pela elaboração de padrões e tendências através de meios como o padrão estatístico de aprendizagem. Geralmente a mineração de texto envolve o processo de estruturação do texto de entrada (frequentemente análise, junto com a adição de algumas características linguísticas derivadas e com a retirada de outras, e com a subsequente inserção em um banco de dados), de derivação de padrões dentro da estrutura de dados e, por fim, de avaliação e interpretação do resultado. Geralmente, “importante” em mineração de texto refere-se a algumas combinações de relevância, originalidade e interesse. Tarefas típicas de mineração de texto incluem categorização e agrupamento de texto, extração de conceito/entidade, produção de taxonomias granulares, análise de sentimentos [1][2] , resumo de documentos e modelagem de relações entre entidades (ex., aprender relações entre entidades nomeadas).
Foram assinalados vários problemas nesta página ou se(c)ção:
|
A análise de texto envolve informações de recuperação, análise lexical a fim de estudar a frequência de distribuição de palavras, reconhecimento de padrões, identificação/anotação, extração de informações, técnicas de mineração de dados que incluem link e associação de análises, visualização e analítica preditiva. O objetivo maior é transformar o texto em dados para análise, por meio da aplicação do processamento de linguagem natural (PLN) e de métodos analíticos.
Uma aplicação comum é examinar um conjunto de documentos escritos em uma linguagem natural e, ou modelar o conjunto de documentos para fins de classificação preditiva ou preencher um banco de dados ou índice de pesquisa com as informações extraídas.
Abordagens manuais de trabalho intensivo da mineração do texto vieram à tona na metade dos anos 80, mas os avanços tecnológicos possibilitaram o avanço do campo durante a década passada. A mineração do texto é um campo interdisciplinar que se baseia na recuperação de informações, extração de dados, aprendizado de máquina, estatísticas e linguística computacional. Quanto mais informações (as estimativas comuns afirmam ser acima de 80%) são armazenadas em forma de texto, acredita-se que a mineração do texto possua um alto valor comercial potencial. O interesse crescente está relacionado a mineração multilíngue de dados: a capacidade de obter informações através de línguas e agrupar itens similares de diversas fontes linguísticas de acordo com o seu sentido.
O desafio de explorar a grande proporção de informações empresariais que se originam de uma forma desestruturada tem sido reconhecido por décadas. Foi aceito na definição mais antiga de inteligência empresarial (IE), em um artigo do IBM Journal em outubro de 1958 por H.P. Luhn, um Sistema de Inteligência Empresarial, que descreve um sistema que deverá:
“... utilizar máquinas de processamento de dados para o abstrato e a auto-codificação de documentos e para criar estruturas de juros para cada um dos ‘pontos de ação’ em uma organização. Tanto os documentos novos quanto aqueles criados internamente são automaticamente resumidos, caracterizados pelo modelo de palavras e enviados automaticamente para pontos de ação apropriados."
No entanto, como os sistemas de gerenciamento de informação desenvolvidos no começo de 1960, e como a IE (Inteligência Empresarial) começou nos anos 80 e 90 como uma categoria de software e prática de aplicação, a ênfase voltou-se para as informações numéricas armazenadas em dados relacionais. Esse fato não é surpreendente: um texto com documentos desestruturados é difícil de processar. O surgimento de análise de texto em sua forma atual origina-se de uma reorientação de pesquisa no final dos anos 90 desde o desenvolvimento de algoritmos até a aplicação, como afirmado pelo Prof. Marti A Hearst no artigo “Untagling Text Data Mining”.
“Por quase uma década, a comunidade da Linguística Computacional considera grandes coleções de textos como um recurso a ser explorado a fim de produzir algoritmos para análise de textos. Nesse artigo, tento sugerir um novo destaque: o uso de grandes coleções online de textos para descobrir novos fatos e tendências sobre o próprio mundo. Sugiro que a fim de progredir, não precisamos de uma análise textual de inteligência artificial, mas uma mistura de análise computacional e guiada podem abrir as portas para novos resultados empolgantes."
A declaração de Hearst, em 1999, descreve muito bem o estado da tecnologia de textos analíticos e prática da década seguinte.
Subtarefas - componentes de uma operação maior de análise de texto - tipicamente incluem:
As Humanidades Digitais podem ser entendidas como um campo de investigação interdisciplinar e transversal às áreas de conhecimento das Humanidades e das Ciências da Informação e da Computação.[4]
A análise automática de um vasto corpus textual possibilitou que pesquisadores analisassem milhões de documentos em diversas línguas com pouca intervenção manual. As principais tecnologias de Análise, Tradução Automática, categorização de tópicos, Aprendizado automático.
A análise automática de corpus textual permitiu a extração de atores e de suas redes de relacionamento em uma vasta escala, transformando dados textuais em uma rede de dados. As redes resultantes, que podem conter milhares de nós, são analisadas com o uso de ferramentas da Análise de rede para identificar os atores principais, as principais comunidades ou grupos, e propriedades gerais como solidez e estabilidade estrutural da rede, ou a centralidade de certos nós. Isso automatiza a aproximação introduzida pela análise de dados quantitativos, onde sujeito-verbo-objeto serão identificados como pares de atores conectados por uma ação, ou pares formados por ator-objeto.
Análise de conteúdo tem sido uma parte tradicionaldas ciências sociais e estudos de mídia por um longo tempo. A automação da análise de conteúdo permitiu uma revolução uma revolução de “megadados” se estabelecer nessa área, com estudos na mídia social e conteúdos nos jornais que incluem milhões de novos itens. O preconceito de gênero, legibilidade, similaridade de conteúdo, preferências do leitor e até o humor são analisados com base em métodos da mineração de texto em milhões de documentos. A análise da legibilidade, do preconceito de gênero e do preconceito de tópicos foi demonstrada ao apontar que diferentes tópicos possuem diferentes tipos de preconceito de gênero e níveis de legibilidade; a possibilidade de detectar mudanças de humor em uma grande população ao analisar conteúdo do Twitter também foi demonstrado.
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.