Gráfico Q-Q
Da Wikipédia, a enciclopédia livre
Em estatística, um gráfico Q-Q[1] ("Q" significa quantil) é um gráfico de probabilidades, que é um método gráfico para comparar duas distribuições de probabilidade, traçando seus quantis uns contra os outros. Primeiro, o conjunto de intervalos para os quantis é escolhido. Um ponto (x, y) no gráfico corresponde a um dos quantis da segunda distribuição (coordenada y) plotadas contra o mesmo mesmo quantil da primeira distribuição de (coordenada x). Portanto, a linha é uma curva paramétrica cujo parâmetro é o quantil de cada ponto.


Se as duas distribuições que estão sendo comparadas são semelhantes, os pontos no gráfico Q-Q vão repousar aproximadamente na linha y = x. Se as distribuições são linearmente relacionadas, os pontos no gráfico Q-Q irão repousar aproximadamente em uma linha, mas não necessariamente na linha y = x. Gráficos Q-Q também podem ser usados como meio gráfico de estimativa de parâmetros de dispersão e tendência central em uma família de distribuições.
Um gráfico Q-Q é usado para comparar as formas das distribuições, fornecendo uma exibição gráfica de como as propriedades, tais como medidas de tendência central, dispersão e assimetria são semelhantes ou diferentes nas duas distribuições. Gráficos Q-Q podem ser usados para comparar conjuntos de dados ou distribuições teóricas. O uso de gráficos Q-Q para comparação de duas amostras de dados pode ser visto como uma abordagem não-paramétrica para comparação de suas distribuições subjacentes. Um gráfico Q-Q geralmente é uma abordagem mais poderosa para fazer essa comparação do que a técnica comum de comparação de histogramas das duas amostras, mas requer mais habilidade para interpretar. Gráficos Q-Q são comumente usados para comparar um conjunto de dados com um modelo teórico.[2] Isto pode fornecer uma avaliação de qualidade do ajuste (goodness of fit) que é gráfica, ao invés de reduzir a uma exibição numérica. Gráficos Q-Q também são usados para comparar duas distribuições teóricas entre si. Uma vez que gráficos Q-Q compararam distribuições, não há necessidade de observar os valores como pares, como em um gráfico de dispersão, nem há necessidade mesmo serem iguais o número de valores nos dois grupos a serem comparados.
O termo "gráfico de probabilidades" às vezes, refere-se especificamente a um gráfico Q-Q, e menos comumente o gráfico P-P. O coeficiente de correlação do gráfico de probabilidade é uma grandeza derivada da ideia de gráficos Q-Q, que mede a concordância de uma distribuição ajustada com os dados observados e que às vezes é usada como um meio de ajuste de uma distribuição de dados.
Posições de plotagem
Resumir
Perspectiva
A escolha dos quantis de uma distribuição teórica pode depender do contexto e do propósito. Uma escolha, dada uma amostra de tamanho n, é k / n para k = 1, …, n, pois estes são os quantis que a distribuição amostral analisa. O último deles, n / n, corresponde ao percentil 100 (o valor máximo da distribuição teórica, que às vezes é infinito). Outras opções são o uso de (k − 0.5) / n, ou espaçar os pontos uniformemente na distribuição uniforme, usando k /(n + 1).[3]
Muitas outras escolhas foram sugeridas, tanto formais quanto heurísticas, baseadas em teoria ou simulações. As subseções a seguir discutem algumas delas.
Heurística
Várias fórmulas diferentes foram usadas ou propostas como posições de plotagem. Tais fórmulas têm a forma (k − a) / (n + 1 − 2a) para algum valor de a no intervalo de 0 a 1, que dá um intervalo entre k / (n + 1) e (k − 1) / (n − 1)[4] .[5]
As expressões incluem:
- k / (n + 1)
- (k − 0,3) / (n + 0,4).[6]
- (k − 0.3175) / (n + 0.365).[7][nota 1]
- (k − 0.326) / (n + 0.348).[8]
- (k − ⅓) / (n + ⅓).[nota 2]
- (k − 0.375) / (n + 0.25).[nota 3]
- (k − 0.4) / (n + 0.2).[9]
- (k − 0.44) / (n + 0.12).[nota 4]
- (k − 0.5) / n.[11]
- (k − 0.567) / (n − 0.134).[12]
- (k − 1) / (n − 1).[nota 5]
Para tamanho de amostra com n grande, há pouca diferença entre essas várias expressões.
Um exemplo: Comparando uma amostra com a distribuição normal
Resumir
Perspectiva
Existem diversas distribuições populacionais teóricas, cada uma com características próprias. Os gráficos Q-Q podem utilizar qualquer uma delas, ou duas delas. De maneira mais geral, o teste de Shapiro–Wilk usa os valores esperados das estatísticas de ordem da distribuição dada; o gráfico e a linha resultantes produzem a estimativa de mínimos quadrados generalizados para localização e dispersão (da intercepto e inclinação da linha ajustada).[13]
O uso comum de gráficos Q–Q é comparar a distribuição de uma amostra com uma distribuição teórica, como a distribuição normal padrão N(0,1).[14]
Para exemplificar a construção de uma gráfico Q-Q, a partir desse ponto são apresentadas as funções matemáticas relacionadas com a distribuição normal, que é uma das distribuições estatísticas mais utilizadas.
Sendo a função de densidade de probabilidade da distribuição normal (com média e desvio-padrão ):
A função é a função erro, utilizada para se integrar a função da distribuição normal padrão, com e :
Sendo , portanto é complementar à função erro .
Sendo A um conjunto de dados amostrais de tamanho n, ordenado crescentemente, no qual estão contidos os valores a1, a2, ...,ak, ..., an, que apresentam média e desvio-padrão . Serão calculados quantis correspondentes q1, q2, ...,qk, ..., qn.
Seja a função distribuição acumulada (f.d.a.) da distribuição normal padrão. Então a função distribuição acumulada para o k-ésimo elemento é:
Outra forma de se calcular a f.d.a. é:
A inversa da função erro complementar é:
que se relaciona com inversa da função erro[15]:
Escolhendo uma regra para um gráfico Q-Q bicaudal
As fórmulas das posições de plotagem (descritas numa seção acima) são definidas para o intervalo [0,1]. Mas para as posições de plotagem abrangerem o domínio [-1,1] é necessário multiplicar a fórmula por dois, e subtrair uma unidade. Ou seja, 2((k − a) / (n + 1 − 2a)) -1. Essa fórmula garante que a mediana (percentil 50) recaia exatamente quando a f.d.a. for 1/2 e .
Coordenada
A tunagem[16] das posições de plotagem para a distribuição normal
Acima, foi fixado o ponto central da curva (percentil 50). O valor de a altera a dispersão dos quantis, sem alterar a posição do ponto central. É necessário garantir que a dispersão dos quantis seja idêntica à dispersão dos percentis. Para isso ocorrer, precisamos definir o valor de a, que é o mesmo para todos os percentis diferentes de percentil 50.
Segundo Wolfram,[17] o percentil "p" é calculado na posição .
Assim, é escolhido arbitrariamente o terceiro quartil, ou percentil 75, cuja f.d.a. é 3/4, situação em que o escore-z[18] e . Para se encontrar o valor de a da regra bicaudal das posições de plotagem utilizamos:
e
Substituindo (2) em (1):
Assim, neste exemplo, atribui-se arbitrariamente a regra bicaudal das posições de plotagem ao percentil 75, fazendo:
Resolvendo a equação acima, encontra-se que a=0, que corresponde:
Coordenada [nota 6]
Coordenada
Interpretação
Resumir
Perspectiva
Os pontos plotados em um gráfico Q–Q são sempre crescentes quando vistos da esquerda para a direita. Se as duas distribuições comparadas forem idênticas, o gráfico Q–Q segue a linha de 45° y = x. Se as duas distribuições concordarem depois de transformar linearmente os valores em uma das distribuições, então o gráfico Q–Q segue alguma linha, mas não necessariamente a linha y = x . Se a inclinação geral do gráfico Q–Q for mais plana que a linha y = x, a distribuição plotada no eixo horizontal é mais disperso do que a distribuição plotada no eixo vertical. Por outro lado, se a inclinação geral do gráfico Q–Q for mais íngreme do que a linha y = x, a distribuição plotada no eixo vertical é mais dispersa do que a distribuição plotada no eixo horizontal. Os gráficos Q–Q são frequentemente arqueados, ou em forma de "S", indicando que uma das distribuições é mais assimétrica que a outra, ou que uma das distribuições tem caudas mais pesadas que a outra.
A intercepção e inclinação de uma regressão linear entre os quantis dá medidarelativas da localização e da dispersão das amostras. Se a mediana da distribuição plotada no eixo horizontal for 0, a interceptação de uma linha de regressão é uma medida de localização e a inclinação é uma medida de dispersão. A distância entre as medianas é outra medida de localização relativa refletida em um gráfico Q–Q. O "coeficiente de correlação do gráfico de probabilidade" (gráfico PPCC) é o coeficiente de correlação entre os quantis. Quanto mais próximo o coeficiente de correlação estiver de 1, mais próximas as distribuições estarão de serem versões deslocadas e escalonadas uma das outra.
Notas
- Observe que isso também usa uma expressão diferente para o primeiro e o último pontos. cita o trabalho original de (Filliben 1975). Esta expressão é uma estimativa das medianas de U(k).
- Uma fórmula simples (e fácil de lembrar) para traçar posições; usado em BMDP statistical package.
- Esta posição de plotagem foi usada por Irving I. Gringorten[10] para traçar pontos em testes para a distribuição de Gumbel.
- Usados por Filliben (1975), esses posições de plotagem são iguais aos modos de U(k).
- Para evitar vieses de análise no gráfico Q-Q, o valor de a da regra bicaudal das posições de plotagem deve ser calculado para cada distribuição estatística teórica, com a finalidade de que cada quantil recaia exatamente no percentil correspondente.
Referências
Conexões externas
Wikiwand - on
Seamless Wikipedia browsing. On steroids.