Loading AI tools
representação gráfica em colunas ou em barras de um conjunto de dados Da Wikipédia, a enciclopédia livre
O histograma, também conhecido como distribuição de frequências, é a representação gráfica em colunas ou em barras (retângulos) de um conjunto de dados previamente tabulado e dividido em classes uniformes ou não uniformes.[1] A base de cada retângulo representa uma classe. A altura de cada retângulo representa a quantidade ou a frequência absoluta com que o valor da classe ocorre no conjunto de dados para classes uniformes ou a densidade de frequência para classes não uniformes.[2][3] Importante ferramenta da estatística, o histograma também é uma das chamadas sete ferramentas da qualidade.[4][5]
Quando o volume de dados aumenta indefinidamente dentro do conjunto de dados e o intervalo de classes tende a zero (o que torna os retângulos cada vez mais finos e altos), a distribuição de frequência torna–se uma distribuição de densidade de probabilidades. A construção de histogramas tem caráter preliminar em qualquer estudo e é um importante indicador da distribuição de dados. Os histogramas podem indicar se uma distribuição se aproxima de uma função normal, assim como também podem indicar a mistura de populações quando se apresentam bimodais.[6]
A palavra "histograma" se origina dos termos gregos: istos (mastro) e gramma (escrita) e pode ser interpretada como uma escrita em longas formas verticais ou algo semelhante. Entretanto, a palavra não foi originalmente utilizada no idioma grego.[7] [8]
A noção de histograma foi cunhada pelo matemático britânico Karl Pearson no ano de 1895. De acordo com informações do Oxford Dictionary of English, extraídas da obra Philosophical Transactions of the Royal Society, a palavra foi introduzida pelo autor em suas palestras sobre estatística como um termo para uma forma comum de representação gráfica. Isto é, colunas que marcam como áreas a frequência correspondente à extensão da sua base.[8] A palavra teria surgido do termo inglês historical diagram (diagrama histórico).[9]
Tudo indica que os histogramas começaram a ser utilizados antes de receberem o nome. Porém, o seu surgimento é incerto. Provavelmente os gráficos de barras antecederam os histogramas. O gráfico de barra mais antigo do qual se tem informações aparece no livro Commercial and Political Atlas, escrito pelo economista político escocês William Playfair para mostrar as importações e as exportações entre a Escócia e outros dezessete países em 1781.[10][8]
Embora Playfair não acreditasse na utilidade da sua criação, ela foi utilizada por vários estudiosos nos anos seguintes. Por exemplo, a enfermeira britânica Florence Nightingale que utilizou gráficos de barras para comparar a mortalidade no exército de paz e a mortalidade dos civis e convencer o governo britânico a melhorar a higiene das forças armadas.[11]
O histograma foi utilizado pela primeira vez em 1883 pelo advogado e estudioso de estatística francês André–Michel Guerry para descrever sua análise estatística sobre os crimes contra a população em Paris.[12] Com seu livro Essai sur la Statistique Morale de la France (Ensaio sobre a Estatística Moral na França), apresentado à Academia Francesa de Ciências em 1832 e publicado em 1833, Guerry foi o primeiro a apresentar a ideia de um mapa em que regiões individuais eram representadas por cores diferentes com base em alguma variável.[13]
Guerry procurou traçar uma geografia criminal com a sobreposição de dados do Compte Général de l’Administration de la Justice Criminelle (documento estatístico–judiciário mais importante da França, que teve seu primeiro volume publicado em 1827), fonte de natureza fiscal e econômica e informações referentes ao grau de instrução da população.[14] Guerry criou o primeiro mapa coroplético ao escurecer regiões individuais para representar os níveis de criminalidade. Hoje em dia os mapas cloropléticos são comuns para indicar resultados de eleições, distribuição de riquezas entre outras variável relacionadas geograficamente.[13]
Um histograma representa uma distribuição de frequência por meio de retângulos, cujas larguras representam intervalos de classe e cujas áreas são proporcionais às frequências (absolutas ou relativas). A altura de cada retângulo é a frequência dividida pelo tamanho do intervalo.[15] Se os intervalos de classes adjacentes não possuem lacunas, os retângulos tocam–se para indicar que a variável original é contínua.[16] Por exemplo, um histograma pode conter dois intervalos de ligação 10,5 – 20,5 e 20,5 – 33,5, mas não pode conter dois intervalos de ligação 10,5 – 20,5 e 22,5 – 32,5. Os intervalos vazios são representados como vazios (não são ignorados).
Os histogramas às vezes são confundidos com gráficos de barras.[17] Um histograma é usado para dados contínuos, em que os intervalos de classe representam a extensão dos dados. Já um gráfico de barra é um gráfico de variáveis categóricas ou discretas. Alguns autores recomendam que os gráficos de barras tenham espaços entre os retângulos para esclarecer a diferença.
Se um histograma possui intervalos de classe de larguras iguais, um retângulo é erguido sobre o intervalo de classe com altura proporcional à frequência (número de casos em cada intervalo de classe). Um histograma também pode ser normalizado para mostrar frequências relativas. Neste caso, o gráfico mostra a proporção de casos em cada uma das várias categorias com soma das alturas igual a 1.[18] Se um histograma possui intervalos de classe de larguras diferentes, o retângulo erguido tem área proporcional à frequência dos casos no intervalo de classe.[19] Neste caso, o eixo vertical não é a densidade de frequência (número de casos por unidade da variável no eixo horizontal).[20]
Os histogramas dão um sentido grosseiro da densidade da distribuição subjacente dos dados e geralmente são estimativas da densidade – estimativa da função densidade de probabilidade da variável subjacente. A área total de um histograma usado para uma densidade de probabilidade é sempre normalizada para 1. Se os comprimentos dos intervalos no eixo x forem todos 1, então o histograma é idêntico ao gráfico de frequência relativa.[21]
Um histograma pode ser pensado como uma estimativa simplista da densidade kernel, que utiliza o kernel para suavizar as frequências sobre os intervalos de classe. Isto leva a uma função densidade de probabilidade mais suave, que em geral refletirá mais precisamente a distribuição da variável subjacente. A estimativa da densidade pode ser plotada como uma alternativa ao histograma e geralmente é representada como uma curva em vez de um conjunto de retângulos.[22] Outra alternativa é o histograma com média deslocada,[23] que é rápido de ser computado e fornece uma estimativa de curva suave da densidade sem utilizar o kernel.
Então, um histograma pode ser construído, considerando "dado" como qualquer medida ou resultado experimental, para responder às seguintes questões:[24]
Em termos matemáticos, um histograma é uma função que conta o número de observações de cada um dos intervalos de classe. Um gráfico é apenas uma forma de representar um histograma. Então, se for o número total de observações e se for o número total de intervalos de classe, o histograma satisfaz a seguinte condição
Um histograma cumulativo é um mapeamento que conta o número cumulativo de observações em todos os intervalos de classe até o intervalo de classe especificado. Um histograma cumulativo de um histograma é definido como .[26]
Não há um número ideal de intervalos de classe. Diferentes tamanhos de intervalos de classe podem revelar diferentes características dos dados. O agrupamento de dados é pelo menos tão antigo quanto o trabalho de John Graunt no século XVII, embora nenhuma orientação sistemática tenha surgido até o trabalho de Herbert Sturges em 1926.[27][28]
Usando intervalos de classe mais largos, a baixa densidade reduz o ruído devido à aleatoriedade da amostragem. Usando intervalos de classe mais estreitos, a densidade elevada garante maior precisão à estimativa da densidade. Então, variar a largura do intervalo de classe em um histograma pode ser benéfico. Entretanto, intervalos de classe com larguras iguais são amplamente utilizados.[29]
Alguns teóricos tentaram determinar um número ótimo de intervalos de classe. Entretanto, estes métodos geralmente fazem suposições fortes sobre a forma da distribuição. Dependendo da distribuição real dos dados e dos objetivos das análises, diferentes larguras de intervalos de classe podem ser apropriadas. Então, a experimentação geralmente é necessária para determinar uma largura apropriada. Porém, há várias diretrizes úteis e regras práticas.[30]
O número de intervalos de classe pode ser calculado diretamente ou a partir de uma largura de intervalo de classe sugerida como
,[31] em que é o número mínimo inteiro maior ou igual que .
,[31] que toma a raiz quadrada do número de pontos de dados na amostra. Isto é usado pelos histogramas do Excel, entre outras ferramentas. [32]
A fórmula de Sturges é baseada em uma aproximação da distribuição binomial pela normal,[28] aqui logaritmo é de base 10. Observa–se que , o que leva a fórmula . A fórmula de Sturges relaciona os tamanhos dos intervalos de classes a partir da extensão dos dados. Ela pode funcionar mal se porque o número de intervalos de classes será pequeno (menor que 7) e as tendências dos dados provavelmente não serão bem mostradas. Ela também pode funcionar mal se os dados não forem normalmente distribuídos.[31]
A regra de Rice é uma alternativa simples à regra de Sturges.[33]
A fórmula de Doane é uma modificação da fórmula de Sturges que tenta melhorar seu desempenho com dados não normais.[34]
, em que é a estimativa da distorção do terceiro momento da distribuição e .
,[35] em que é o desvio padrão da amostra. A regra de referência normal de Scott[36] é ideal para amostras aleatórias de dados normalmente distribuídos, no sentido que minimiza o erro quadrático médio integrado da estimativa de densidade.[27] Esta abordagem de minimizar o erro quadrático médio integrado pode ser generalizada para além das distribuições normais.[37]
Seja ,[37] em que é o número de pontos de dados na -ésima barra. A regra escolha o valor que minimiza a função , o que faz com que o erro quadrático médio integrado seja minimizado.
A escolha de Freedman–Diaconi[38][27] é baseada na amplitude interquartil (interquartile range ou , em inglês), em que . Ela substitui o desvio padrão da regra de Scott pela dobro de amplitude interquartil . Ela é menos sensível que o desvio padrão para outliers.
A escolha do número de barras baseada na minimização de uma função de risco é dada por , em que e são a variância média e tendenciosa de um histograma com largura do intervalo de classe , e .[39][40] Observa–se que e dependem da escolha de , , . Isto é, a regra escolha o valor que minimiza a função .
A construção de um histograma envolve as seguintes etapas:
Para definir o intervalo e o número de classes para um conjunto de dados não há fórmula matemática exata, mas uma sistemática consiste em determinar:
Dentro desta sistemática, é essencial que , de modo que todos os dados sejam abrangidos. Um muito pequeno pode incluir variações muito pequenas de valores ou ruído e um muito grande pode eliminar variações importantes dos dados.[42][43]
Para , pode–se aplicar com segurança a fórmula proposta por Sturges.[44] é o menor inteiro, tal que .[45] No exemplo da tabela ao lado (), é uma boa escolha para o número de classes. Para , é uma boa escolha para o intervalo de classes.[46]
Para construir um histograma de forma mais prática, existem aplicativos computacionais como o Origin, que definem automaticamente o número de classes e de intervalos. Porém, é necessário que o usuário verifique se a solução proposta pelo aplicativo atende à necessidade de o histograma ser suficiente e adequadamente elucidativo.[47]
A partir de uma análise estatística e de dados demográficos de uma população é possível construir um histograma. Por exemplo, o Escritório de Censos dos EUA[48] descobriu que havia 124 milhões de pessoas que trabalham fora de suas casas. Usando os dados sobre o tempo de viagem de casa para o trabalho, a tabela abaixo mostra o número absoluto de pessoas que responderam na sua maioria pelo menos 30 minutos e menos de 35 minutos para o tempo de percurso. Isto provavelmente deve–se às pessoas que arredondam o tempo de viagem de casa para o trabalho. O problema de relatar valores como números arbitrariamente arredondados é um fenômeno comum na coleta de dados de pessoas.[48]
A construção de um histograma demonstra o número de casos por intervalo de unidade como a altura de cada bloco, de modo que a área de cada bloco é igual ao número de pessoas correspondente a sua categoria de tempo de viagem. A área das barras do histograma representa o valor absoluto ou o número total de casos (124 milhões de pessoas). Foi considerada a quantidade (Q) em milhares para este tipo de histograma o qual mostra números absolutos. Isto é, não existe uma representação por porcentagem e/ou decimais.[48]
Além do histograma construído a partir dos números absolutos é possível construir outro histograma a partir de dados de proporção. Isto é, a área de cada bloco é a fração do total que cada categoria representa e a área total de todas as barras é igual a 1 (a fração significa "tudo"). A partir das barras do histograma é possível desenhar uma curva a qual é uma estimativa de densidade simples. Este tipo de histograma mostra proporções, de modo que difere–se do primeiro histograma apenas na escala vertical. Este tipo de histograma é também conhecido como histograma de área de unidade.[49]
Em um histograma, é a área que indica a frequência de ocorrência de cada barra. Isto significa que a altura da barra não indica necessariamente a quantidade de ocorrências dentro dela. É o produto da altura pela largura da barra que indica a frequência de ocorrência dentro da barra. Uma das razões pelas quais a altura da barra é confundida com o indicador de frequência da barra é o fato de muitos histogramas terem barras igualmente espaças.[50]
O aprendizado sobre os histogramas também requer o entendimento das partes do gráfico. O eixo X ou eixo horizontal mostra o intervalo ou os valores dos intervalos de variável de interesse. Eles são comumente chamados de intervalos de classe, que representam ou resumem grandes conjuntos de dados. O eixo Y ou eixo vertical mostra os valores das alturas das barras.[51]
Uma frequência absoluta é o número que representa a quantidade de dados em uma determinada amostra ou o intervalo de classe especifico.[52] Por exemplo, em época de eleições, a quantidade de eleitores brasileiros é representada por um número. Este número chama–se de frequência absoluta.[53] Até 2016 o número de eleitores brasileiros era de 146 275 020 de pessoas. Portanto, o gráfico de frequência absoluta é o histograma usual, em que o eixo Y (ordenada) indica a frequência (absoluta) com que uma classe aparece no conjunto de dados.
Uma frequência relativa é o valor percentual que é obtido por meio do resultado da divisão entre o valor absoluto e a quantidade de elementos da população ou da amostra. Para a construção da frequência relativa e acumulativa, é preciso fazer uma tabela associando a classe ao porcentual em que ela aparece no conjunto de dados.[54] Por exemplo, na classe entre 45 e 50 mg/dL da tabela abaixo, obteve–se a frequência absoluta 4 do total de 18 amostras submetidas à análise. Logo,
. [55]
A frequência cumulativa está ligada à soma dos valores de frequência relativa. Por exemplo, para o gráfico de frequência cumulativa soma–se em ordem crescente o valor de uma frequência relativa de uma classe qualquer com todas as classes com valores inferiores. Este gráfico é útil para obter informações a respeito de uma faixa de valores. Por exemplo, na tabela acima observa–se que 61,11% das amostras têm valor inferior a 55 mg/dL.[56] Desta forma obtém-se o gráfico abaixo que representa os histogramas da frequência relativa e acumulativa, indicando a frequência absoluta em cada classe.
Polígono é uma forma geométrica que, por definição, é uma região fechada de um plano limitada por um conjunto de segmentos finitos.[57] A diversidade do conceito de polígonos permite a elaboração de uma área, ligando os pontos centrais do topo de cada barra de um histograma chegando na elaboração de um polígono de frequências. [58]
Com os dados da tabela abaixo, é possível chegar aos exemplos de histogramas padrões simétricos e unimodal, distorcido à direita, distorcido à esquerda, bimodal, multimodal e simétrico. Também é possível encontrar as medidas de tendência central, media, moda e mediana.[59][60]
Variável | Contagem |
---|---|
−3,5 | 23 |
−2,5 | 32 |
−1,5 | 109 |
−0,5 | 180 |
0,5 | 132 |
1,5 | 34 |
2,5 | 4 |
3,5 | 90 |
Um histograma unimodal ou simétrico centraliza os dados na média (medida central) e possui características por meio da distribuição da média e do desvio padrão. Uma característica do histograma unimodal ou simétrico é conter a partir do centro do gráfico o maior número de dados. Por exemplo, partindo do centro da base das barras e somando para a direita e subtraindo para a esquerda do gráfico o desvio padrão, encontra–se 68% dos dados. Em estatística, este modelo é chamado de normal e permite analisar o quanto outros dados se afastam deste modelo.[61]
Um histograma é distorcido à direita quando a distribuição de dados indica a ocorrência de altos valores com baixa frequência. Este modelo é geralmente usado para representar fenômenos identificados na economia pelas variáveis como preço, Produto Interno Bruto (PIB), salários, entre outras.[62]
Um histograma é distorcido à esquerda quando a frequência dos dados está concentrada nos altos valores e sendo chamada de distorcida à esquerda. Observa–se que há mais informações acima da média devido a falta de simetria.[62]
Um histograma é bimodal quando há o aparecimento de dois picos.
Multimodal
Um histograma é multimodal quando há o aparecimento de vários picos. Em tratamento de imagens, os picos são as representações das regiões com maior quantidade de pixels.[63]
Um histograma tem o formato Platô quando suas barras tem praticamente os mesmo tamanhos de altura. Isto ocorre quando existem várias distribuições juntas com médias diferentes. [64]
O campo da computação chamado processamento de imagem é um exemplo prático de como histogramas podem ser utilizados. Em uma imagem, a quantidade de vezes que uma determinada cor se repete pode ser representada por um histograma. Como há várias possibilidades de cores, este tipo de histograma é gerado com base em uma foto preto e branco.[65]
Em processamento de imagens e vídeos, os histogramas são utilizados para traduzir distorções, cores, padrões, número total de objetos, dimensões, geometria, propriedades de cor, luminosidade e textura.[66] Isto é, os histogramas são utilizados para o reconhecimento e a recuperação de imagens morfistas e de objetos poliédricos com poses desconhecidas. Portanto, o histograma das intensidades de imagens demonstra–se uma ferramenta eficiente para a indexação de bases de dados visuais.[67]
Não é possível codificar informações sobre textura. Isto é, não é possível gerar um conjunto de dados representativos a partir da representação da imagem (não são gerados arquivos). Entretanto, os histogramas das versões gaussianas ou curva normal de uma imagem desfocada, codificam as interações entre intensidades de partes vizinhas da imagem causada pela falta de foco. Estes histogramas chamam–se histogramas de multi–resolução. Estas representações mantêm as propriedades importantes dos histogramas. Entre as facilidades da técnica estão a agilidade para computar, espaço eficiente e invariante para movimentos rígidos. O desfoque inerente também é útil ao ruído. Todas estas propriedades resultam em um recurso de textura eficaz.[67]
Por meio da amostragem da imagem é possível quantificar a quantidade de pixels utilizada na imagem digitalizada. Por meio da quantidade de pixels é possível entender a quantidade de tons que podem ser atribuídos a cada bit, equivalente a cada pixel. A decodificação é o processo de acessar as informações codificadas para mostra–las novamente em imagem.[68]
Com o objetivo de melhorar a qualidade das imagens sob os critérios subjetivos do olho humano a técnica de realce de contraste normalmente é utilizada como uma etapa do pré–processamento para sistemas de reconhecimento de padrões. Pode–se definir o contraste entre dois objetos como a razão entre os seus níveis de cinza médios. Com o objetivo de aumentar a discriminação visual entre os objetos presentes na imagem a manipulação do histograma consiste na transferência radiométrica em cada pixel, realizando a operação ponto a ponto, independente da vizinhança. Utilizando a função matemática denominada transformação radiométrica pode–se fazer um realce de contraste. Esta função consiste no mapeamento das variações dentro do intervalo original de tons de cinza para outro intervalo desejado. É utilizada para aumentar o contraste de imagem, expandindo o intervalo original de níveis de cinza da imagem original.[69]
Para oferecer suporte na indústria foram criadas sete ferramentas da qualidade, das quais o histograma faz parte e fornece ajuda na identificação, na observação, na análise, na verificação e na conclusão de um problema. Portanto o histograma é uma forma robusta para auxiliar vários setores, pois envolve a medição de dados em geral e demonstra tendências.[70]
O histograma permite a análise dos valores de um processo de produção. O histograma ilustra a distribuição de uma população por meio da qual pode–ser verificar visualmente se há algum problema na fabricação que está gerando mais gastos para a empresa.[71]
As empresas possuem um fluxo contínuo de valores em vários setores, como compra, pagamento, salários, entre outros. Especialmente sobre os salários em uma empresa, é possível verificar se há alguma tendência nos pagamentos ou desvio de valores a partir de um padrão estatístico de fluxo dos valores por meio de um histograma.[72]
A partir do fluxo contínuo dos pregões em uma bolsa de valores como o Índice de Bolsa de Valores de São Paulo (Ibovespa) é possível observar por meio do histograma de retorno os preços do mercado no decorrer dos dias. A partir da análise gráfica é possível observar chamadas fat tails (caudas pesadas), que possuem caudas mais pesadas que uma distribuição normal. Muitas pesquisas foram feitas no setor para descrever o comportamento dos retornos nas bolsas de valores.[73]
É comum a utilização de histogramas na medicina para analisar dados contínuos de pacientes como peso, respiração e dados contínuos de uma população como o grupo de grávidas, obesos, infectados pelo HIV, entre outros. Por exemplo, as intervenções medicas em uma população podem ocorrer após a análise de uma tendência em um histograma.[74]
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.