Loading AI tools
Da Wikipédia, a enciclopédia livre
Em teoria das probabilidades e estatística, a distribuição marginal de um subconjunto de uma coleção de variáveis aleatórias é a distribuição de probabilidade das variáveis contidas no subconjunto. Ela oferece as probabilidades de vários valores das variáveis no subconjunto sem referenciar aos valores das outras variáveis. Isso contrasta com a distribuição condicional, que nos dá as probabilidades contingentes sobre os valores de outras variáveis.
O termo variável marginal é usado para referir às variáveis no subconjunto de variáveis sendo retidas. Estes termos são denominados de "marginal" porque eles costumam ser encontrados através da soma de valores em uma tabela ao longo de linhas ou colunas, e a escrita dessa soma é dada nas margens da tabela.[1] A distribuição de variáveis marginais (a distribuição marginal) é obtida marginalizando através da distribuição de variáveis sendo descartadas, e as variáveis descartadas são ditas marginalizadas.
Aqui o contexto é que a análise de dados que se pretende realizar envolve um conjunto maior de variáveis aleatórias, mas o foco é limitado para um número reduzido dessas variáveis. Em várias aplicações, uma análise pode começar com uma dada coleção de variáveis aleatórias, para então estender o conjunto definindo novas variáveis (como a soma das variáveis originais) e, finalmente, ao se concentrar na análise da distribuição marginal de um subconjunto (como a soma), reduzindo o número de variáveis a serem analisadas. Várias análises distintas podem ser feitas, cada uma tratando de um subconjunto de variáveis diferente como variáveis marginais.
Sejam X e Y variáveis aleatórias discretas originadas do mesmo fenômeno aleatório. Seja também p(x, y) = P(X = x, Y = y) a função de probabilidade conjunta de X e Y. A função de distribuição marginal é dada por:
e [2]
Dizemos que f(x) e g(y) são as distribuições de probabilidade marginal (ou simplesmente distribuições marginais) de X e Y, respectivamente. Este conceito tem uma relação com distribuição de probabilidade condicional, que fornece a probabilidade de X = x dado que Y = y ocorreu.[3] A definição de distribuição marginal para variáveis contínuas é semelhante, sendo as funções f(x) e g(y) caracterizadas da seguinte forma:
e [4]
Consideremos a seguinte situação: queremos calcular a probabilidade de um pedestre ser atropelado por um carro enquanto está atravessando a rua na faixa de pedestre sem prestar atenção ao semáforo. Sejam H ∈ {Atropelado, Não Atropelado} e L ∈ {Vermelho, Amarelo, Verde} variável aleatória discreta.
Realisticamente, H dependerá de L. Ou seja, P(H = Atropelado) e P(H = Não Atropelado) irá assumir diferentes valores dependendo do fato de L ser "Vermelho", "Amarelo" ou "Verde". Uma pessoa estará, por exemplo, mais inclinada a ser atropelada por um carro quando o sinal estiver verde, ao invés de vermelho. Em outras palavras, para qualquer par de valores para H e L, deve-se considerar a distribuição de probabilidade conjunta de H e L para achar a probabilidade desse par de eventos acontecerem simultaneamente se o pedestre ignora o estado do semáforo.
No entanto, quando estamos calculando a probabilidade marginal P(H = Atropelado), o que estamos querendo descobrir é a probabilidade de H ser igual a "Atropelado" na situação na qual não sabemos de fato o valor particular de L e se um pedestre ignora se o sinal está verde, amarelo ou vermelho. Em geral, um pedestre pode ser atingido se o sinal estiver vermelho OU se o sinal estiver amarelo OU se o sinal estiver verde. Então nesse caso a resposta para a probabilidade marginal pode ser encontrada somando os p(h, l) para todos os possíveis valores de L, com cada valor de L ponderado pela sua probabilidade de acontecer.
Aqui temos uma tabela mostrando as probabilidades condicionais de ser atingido, dependendo da sinalização do semáforo. Note que a soma dos valores nas colunas desta tabela deve ser 1, pois P(H = "Atropelado") + P(H = "Não Atropelado") = 1, já que os eventos são complementares, independente do estado do semáforo.
Distribuição condicional: P(H = h|L = l) | |||
---|---|---|---|
L = Verde | L = Amarelo | L = Vermelho | |
H = Não Atropelado | 0,99 | 0,9 | 0,2 |
H= Atropelado | 0,01 | 0,1 | 0,8 |
Para achar a distribuição de probabilidade conjunta, precisamos de mais dados. Digamos que P(L = "Verde") = 0,2, P(L = "Amarelo") = 0,1, e P(L = "Vermelho") = 0,7. Multiplicando cada coluna na tabela de distribuição condicional pela probabilidade daquela coluna ocorrer, achamos a distribuição de probabilidade conjunta de H e L, dadas no bloco central de entradas 2×3 (note que a soma das entradas nesse bloco 2×3 é 1).
Probabilidade conjunta: P(H = h, L = l) | ||||
---|---|---|---|---|
L = Verde | L = Amarelo | L = Vermelho | Probabilidade marginal P(H = h) | |
H = Não Atropelado | 0,198 | 0,09 | 0,14 | 0,428 |
H = Atropelado | 0,002 | 0,01 | 0,56 | 0,572 |
Total | 0,2 | 0,1 | 0,7 | 1 |
A probabilidade marginal P(H = Atropelado) é a soma das entradas da linha H = Atropelado nesta tabela de distribuição conjunta, tendo em vista que esta é a probabilidade de ser atingido quando o sinal está vermelho OU amarelo OU verde. De forma similar, a probabilidade marginal de P(H = Não Atropelado) é a soma das entradas da linha H = Não Atropelado.
Para distribuição multidimensional, fórmulas similares às que foram definidas acima se aplicam para X ou Y sendo interpretados como vetores. Em particular, cada somatório ou integral seria aplicada em todas as variáveis exceto naquelas contidas em X ou Y (dependendo de que variável se deseja obter os resultados).[5]
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.