Loading AI tools
Teorema Fundamental da Probabilidade Da Wikipédia, a enciclopédia livre
A lei dos grandes números (LGN) é um teorema fundamental da teoria da probabilidade, que descreve o resultado da realização da mesma experiência repetidas vezes. De acordo com a LGN, a média aritmética dos resultados da realização da mesma experiência repetidas vezes tende a se aproximar do valor esperado à medida que mais tentativas se sucederem. Em outras palavras, quanto mais tentativas são realizadas, mais a probabilidade da média aritmética dos resultados observados irá se aproximar da probabilidade real.[1]
A LGN tem aplicações práticas na ciência de modo geral, tal como na agricultura e na economia, dentre outras áreas importantes. É possível descobrir por meio de numerosas observações e de experiências suficientes a probabilidade de um evento natural acontecer (por exemplo, a probabilidade de chover) ou de uma fração de uma população satisfazer a uma condição (por exemplo, a probabilidade de ser produzida uma determinada quantidade de peças defeituosas em uma linha de montagem).[2]
A LGN é importante ainda porque garante resultados estáveis a longo prazo para médias de eventos aleatórios. Considere um caso particular de um jogo de roleta em um cassino. Embora o cassino possa perder dinheiro em uma única rodada de uma roleta, os seus ganhos tenderão a se aproximar de uma probabilidade da média aritmética dos resultados observados depois de um grande número de rodadas. De outra forma, qualquer série de vitórias de um apostador será superada pelos parâmetros do jogo depois de algumas rodadas.[3]
Entretanto, a LGN se aplica apenas para um grande número de observações. Não há princípio para que um pequeno número de observações coincida com o valor esperado ou para que a sequência de um valor seja superada por outro valor imediatamente (ver falácia do apostador).[1]
A LGN trata de um resultado matemático. Imagine uma experiência com uma urna contendo bolas brancas e pretas em uma certa proporção. Imagine um sorteio de bolas da urna, em que uma pessoa retira uma bola de olhos fechados e outra pessoa anota a cor da bola e devolve a bola para a urna. Várias bolas são retiradas sucessivamente. Se a experiência for realizada repetidas vezes, a frequência relativa de bolas pretas sempre irá convergir para um determinado número. Esse número é a proporção de bolas pretas contidas na urna.[4]
Se a urna tiver a mesma quantidade de bolas brancas e pretas, a porcentagem de vezes que as bolas pretas serão sorteadas irá convergir para o 50%. Do mesmo modo, se a urna tiver três bolas brancas e sete bolas pretas, a porcentagem de vezes que as bolas pretas serão sorteadas irá convergir para é 70%.[4]
É possível verificar experimentalmente que a porcentagem de vezes em que uma bola preta é sorteada se aproxima de um determinado número entre 0 e 100%. Esse número é exatamente a proporção de bolas na urna, o que corresponde precisamente ao resultado matemático mencionado acima. Esse resultado é um teorema da teoria da probabilidade, que afirma que quanto mais sorteios são realizados mais a proporção de bolas pretas se aproxima de um número entre 0 e 1.[4]
Chamada de "Primeiro Teorema Fundamental de Probabilidade", a LGN é derivada da análise de jogos de azar como sorteio de bilhetes de loteria ou arremesso de dados. Um dado não viciado de seis lados pode cair 1, 2, 3, 4, 5 ou 6 em uma única jogada, todos com igual probabilidade. É possível calcular o valor médio de um lance de um dado não viciado de seis lados. Depois de várias jogadas, um a cada seis lances cairá 1, um a cada seis lances cairá 2 e assim por diante com todos os seis resultados possíveis. Contando todos os seis resultados possíveis, obtemos:
.[5]
Embora nenhum lado tenha o número 3,5 e nenhum lance resulte no valor 3,5, a LGN determina que a média dos lances de um dado não viciado de seis lados irá se aproximar cada vez mais de 3,5 depois de um grande número de jogadas. Em outras palavras, a soma do resultado particular (1, 2, 3, 4, 5 ou 6) de cada lance irá se aproximar cada vez mais de um sexto do número total de jogadas.[5]
Da LGN deduz–se que a probabilidade empírica de sucesso em uma série de uma distribuição de Bernoulli irá convergir para a probabilidade teórica. Para uma variável aleatória de Bernoulli, o valor esperado é a probabilidade teórica de sucesso e a média de n variáveis aleatórias independentes e identicamente distribuídas (i.i.d.) é precisamente a frequência relativa.[6]
Um lançamento de uma moeda honesta é uma distribuição de Bernoulli. Quando uma moeda honesta é lançada uma vez, a probabilidade teórica de sair cara é igual a meio. Logo, a probabilidade de sair cara depois de um grande número de lançamentos deverá ser aproximadamente meio. De acordo com a LGN, a proporção de sair cara depois de n lançamentos irá convergir quase certamente para meio, à medida que n tende ao infinito.[7][8]
Embora a proporção de caras e coroas se aproxime de meio, a diferença absoluta entre elas quase certamente irá aumentar à medida que mais lançamentos forem realizados. Isto é, a probabilidade de a diferença absoluta ser um número pequeno irá se aproximar de 0 à medida que mais lançamentos forem realizados. A proporção entre a diferença absoluta e o número de lançamentos também irá quase certamente se aproximar de 0.[7][8]
O matemático suíço Jakob Bernoulli (1654—1705) provou a LGN para variáveis aleatórias binárias, depois de o matemático italiano Girolamo Cardano (1501—1576) afirmar sem provas que a precisão das estatísticas empíricas tende a melhorar à medida que o número de tentativas aumenta.[9]
Bernoulli levou mais de vinte anos para provar a fórmula matemática, que foi publicada em seu livro "A Arte da Conjectura" (Ars Conjectandi) por seu sobrinho Nicolau Bernoulli em 1713. Bernoulli afirmou que quanto maior o número de tentativas, mais a proporção de tentativas bem–sucedidas se aproxima de p com probabilidade próxima de 1.[1]
“ | Se um evento de probabilidade p é observado repetidamente em ocasiões independentes, a proporção da frequência observada do mesmo evento em relação ao número total de repetições convergem em direção a p à medida que o número de repetições se torna arbitrariamente grande.[10] | ” |
— Jakob Bernoulli, em seu livro Ars Conjectandi |
Bernoulli chamou a lei dos grandes números de "Teorema Dourado", porém o conceito ficou mais conhecido como "Teorema de Bernoulli". O teorema de Bernoulli não deve ser confundido com Princípio de Bernoulli, exposto mais tarde pelo seu outro sobrinho Daniel Bernoulli.[11]
Em 1837 o matemático francês Siméon Denis Poisson (1781—1840) também descreveu o conceito da lei dos grandes números, que mais tarde ficou conhecido tanto como "Teorema de Bernoulli" quanto como pelo próprio nome da LGN, muito embora esse último seja o nome mais usado.[12][13][14]
Depois das tentativas de Bernoulli e de Poisson, outros matemáticos contribuíram para o aprimoramento da LGN, incluindo Pafnuti Chebyshev, Andrei Markov, Émile Borel, Francesco Paolo Cantelli, Andrei Kolmogorov e Aleksandr Khinchin.[6]
Esses novos estudos deram origem a duas formas proeminentes da LGN: a lei fraca dos grandes números e a lei forte dos grandes números. Tanto a lei fraca quanto a lei forte não definem conceitos diferentes, mas modos distintos de representar a convergência da probabilidade observada para a probabilidade real. Em particular, a lei forte implica a lei fraca.[6]
Sejam variáveis aleatórias i.i.d..
Seja e .[15]
Defina–se a média ..[15]
Então, para cada ,
Na lei fraca dos grandes números, converge em probabilidade para .
Isto é,.[15]
Na lei forte dos grandes números, converge quase certamente para o seu valor esperado .
Isto é, [15]
Tanto para a lei fraca quanto para a lei forte, teve-se a suposição de uma variância finita. Embora seja verdadeira e desejável, na maioria das aplicações esta suposição é mais forte do que o necessário. Tanto a lei forte quanto a lei fraca se mantém sem essa suposição, de modo que a única condição necessária é que .[15]
Entretanto, um exemplo em que a LGN não se aplica é a Distribuição de Cauchy. Sejam os números aleatórios iguais a tangente de um ângulo uniformemente distribuído entre − 90° e + 90°. A mediana é 0, mas o valor esperado não existe e a média dessas n variáveis tem a mesma distribuição de uma única variável. Isso não tende a 0 à medida que n tende ao infinito.[16]
A LGN pode ser descrita de duas formas: a lei forte dos grandes números e a lei fraca dos grandes números, as quais diferem–se de acordo com a forma de convergência definida (ver variáveis aleatórias).[17]
Considerando X1, X2, ... uma sequência infinita de variáveis aleatórias i.i.d. com valor esperado E(X1) = E(X2) = ... = µ, ambas as versões da LGN determinam quase certamente que a média da amostra
converge para o valor esperado
.[17]
A suposição da variância finita Var(X1) = Var(X2) = ... = σ2 < ∞ não é necessária. Embora a variância grande ou infinita torne a convergência mais lenta, a LGN é válida de qualquer maneira. Esta suposição muitas vezes é usada por tornar as provas mais curtas e fáceis.[17]
Também chamada de Lei de Khinchin, a versão fraca da LGN determina que a média da amostra converge em probabilidade para o valor esperado. A lei fraca determina essencialmente que qualquer margem diferente de 0 especificada (não importa o quão pequena ela seja), com uma amostra suficientemente grande haverá uma probabilidade muito alta que a média das observações se aproximará do valor esperado. Isto é, dentro da margem.[18]
A variância pode ser diferente para cada variável aleatória em séries, mantendo o valor esperado constante. Se as variâncias são limitadas, a lei fraca é aplicada como mostrou Chebyshev em 1867 (se os valores esperados mudarem durante as séries, podemos simplesmente aplicar a lei fraca para o desvio médio dos respectivos valores esperados. Então, a lei fraca determina que isso converge para probabilidade 0). Provas de Chebyshev valem para até quando a variância da média dos primeiros n valores tendem a 0 à media que n tende ao infinito.[19]
O nome "lei fraca" deve–se ao fato de as variáveis aleatórias convergirem de maneira fraca ou em probabilidade. O termo aplica–se no caso de as variáveis aleatórias i.i.d. terem um valor esperado.[19]
Seja uma sequência de variáveis aleatórias independentes tomadas dois a dois. Seja essa sequência de variância finita e uniformemente limitada. Tem–se a lei fraca da LGN. Também, podemos entender de ponto de vista algébrico como existe um , tal que .[20]
Uma soma de uma sequência de variáveis aleatórias pode ser escrita como
.[20]
A independência de implica
.[20]
De acordo com a Desigualdade de Chebyshev, temos:
, quando .[21]
Logo, obtemos:
, lembrando que está convergindo para 0 com a probabilidade.[21]
De acordo com o Teorema de Taylor para funções complexas, a função característica para qualquer variável X com média finita μ pode ser escrita como:
..[22]
Todo X1, X2, ... possuem a mesma função característica. Então, iremos simplesmente denotar isso como Entre as propriedades básicas das funções características estão:
, se X eY forem independentes.[22]
Estas regras podem ser usadas para calcular a função característica de em termos de :
.[22]
O limite eitμ é a função característica da variável aleatória constante μ, e, portanto, de acordo com o Teorema de Continuidade de Levy, converge em distribuição para μ:
..[22]
μ é uma constante, o que implica que a convergência em distribuição para μ e a convergência em probabilidade para μ são equivalentes (ver convergência de variáveis aleatórias).[22]
Então,
[22]
Isso mostra que a média da amostra converge em probabilidade para a derivada da função característica na origem, enquanto a função característica existir.[22]
A versão forte da LGN afirma que a aproximação pela frequência relativa tende a melhorar quando o número de observações aumenta. Especificamente, a lei forte determina que a média de uma sequência de variáveis aleatórias i.i.d. com probabilidade "1" converge para a média da distribuição. Isto é, quanto maior o conjunto das observações dos dados mais próximo ele estará da sua própria média. Portanto, nenhuma informação é desconsiderada implicando na probabilidade 1.[23][24]
O nome "lei forte" deve–se ao fato de as variáveis aleatórias convergirem de maneira forte ou quase certamente, sendo que convergência quase certa também é chamada de convergência forte de variáveis aleatórias.[23][24]
Retoma–se aqui a ideia de que a lei forte implica a lei fraca, embora o contrário não aconteça, quando as condições para a lei forte garantem que a variável convirja tanto fortemente ou quase certamente quanto fracamente ou em probabilidade. A lei fraca pode acontecer em condições em que lei forte não pode acontecer, de modo que a convergência é apenas em probabilidade.[23][24]
Seja uma sequência de variáveis aleatórias i.i.d., cada uma com média finita . Então, com probabilidade 1 na qual podemos entender com a expressão matemática:
.[1]
Em palavras, representa a quantidade de variáveis aleatórias. Para se obter a média de um conjunto de 2 elementos, basta dividir por 2, o que resulta em média 1. Para se obter a média de uma quantidade grande de conjuntos, basta dividir pela sua quantidade de conjuntos. Portanto, em todos os casos de quantidade grande de conjuntos, podemos olhar quando está no infinito, mas não é o infinito. Isto é, no caso geral estuda–se quando o comportamento da média pode ser a maior de todas, o que leva ao infinito do ponto de vista algébrico. É importante destacar a sutileza entre as propriedades de limite, as quais afirmam que a razão entre um numero e o infinito será 0. Em estatística, intuitivamente a probabilidade disso acontecer é 1.[1]
Como exemplo de aplicação da lei forte, suponha que seja realizada uma sequência de tentativas independentes de um experimento. Suponha que seja um evento fixo do experimento e que a probabilidade desse evento represente a probabilidade de que ocorra em qualquer tentativa particular. Fazendo com base na Distribuição Bernoulli
temos pela Lei Forte que com probabilidade 1,
.[1]
Como representa o número de vezes em que o evento ocorre nas primeiras tentativas, podemos interpretar a expressão como se com probabilidade 1 a proporção limite do tempo de ocorrência do evento fosse justamente . Embora o teorema possa ser demonstrado sem esta hipótese, a demonstração seguinte da lei forte supõe que as variáveis aleatórias possuem um quarto momento finito. Isto é, supomos que .[1]
A demonstração da lei forte é mais complexa que a demonstração da lei fraca. A lei forte justifica a interpretação intuitiva do valor esperado de uma variável aleatória quando testada repetidamente como a média de longo prazo.[24]
Suponha que a média de seja igual a 0. Isto é, .
Também considere a soma das variáveis, na qual é representada .
Podemos anotar o valor esperado do quarto momento desta soma na linguagem algébrica como , supondo ele finito.
Seja a potência 4 para o valor esperado, temos do ponto de vista algébrico por decorrência das propriedades de potência a expressão
.
Intencionando calcular o valor esperado para a soma, encontramos a expressão
.
Já aplicando o método simples da distributiva nos fatores do valor esperado, obtemos uma expansão que resulta em termos e, em que e são todos diferentes.
Como por suposição todas as variáveis aleatórias têm média 0, resulta da independência destas variáveis que
Para um dado par e , haverá termos na expansão que serão iguais a .
Expandido o produto anterior e calculando as esperanças ou o valor esperado termo a termo, obtemos
.
Por hipótese de independência, agora como
temos
.
Do desenvolvimento anterior, obtemos que
o que implica
.
Portanto,
.
Lembrando que para a probabilidade 1, .
Se for , a soma converge para 0. Portanto, seu resultado será 0. Em estatística, se houver a probabilidade positiva de que a soma seja infinita, então o seu valor esperado é infinito. Entretanto a convergência da série implica que seu -ésimo termos tenda a 0. Portanto, concluímos que com probabilidade 1
.[1]
Entretanto, se tende a , então também tenderá a . Essa é a prova com probabilidade 1.[1]
Quando é a média de diferente de 0, podemos aplicar o argumento anterior às varáveis aleatórias para obtermos que com probabilidade 1
.[1]
Isto é,
[1]
A lei forte pode por si só ser vista como um caso especial de Teoria Ergódica e aplica–se para variáveis aleatórias i.i.d. com um valor esperado como a Lei Fraca, o que foi provado por Kolmogorov em 1930. Em 1933, Kolmogorov também mostrou que se as variáveis são independentes e identicamente distribuídas, para a média convergir quase certamente para algo (o que pode ser considerado outra afirmação da Lei Forte) é necessário que elas tenham um valor esperado (então, a média irá convergir quase certamente no valor esperado).[6]
Se Xk são independentes e não identicamente distribuídas, logo:
dado que cada Xk possui um segundo momento finito e que
.[25]
Esta afirmação é conhecida como a Lei Forte de Kolmogorov.[26]
Um exemplo de uma série em que a lei fraca aplica–se, mas a lei forte não se aplica, é quando Xk é maior ou menor que (iniciando com k suficientemente grande para que o denominador seja positivo) com probabilidade meio para cada. Logo, a variância de Xk é Lei Forte de Kolmogorov não aplica–se porque a soma parcial em seu critério de até k = n é assintótica para e isso não possui limites.
Lei Fraca mostra que para qualquer grande valor de especifico (adotando como ), é provável que esteja próximo de . Entretanto, isso não significa que permanecerá próximo de para todos os valores de maiores de .
Existe a possibilidade de que grandes valores de possam ocorrer de forma infinitamente frequente, porém a lei forte mostra que isso não pode ocorrer. Em particular, ela implica que isso não pode ocorrer com probabilidade 1 para qualquer valor positivo .
A lei fraca, por sua vez, determina que para um tamanho específico n, a média deve ficar próxima de . Logo, isso deixa aberta a possibilidade de acontecer infinitos números de vezes, embora em intervalos infrequentes (não necessariamente para todo n).
A lei forte mostra que isso quase certamente não acontece. Em particular, isso implica que com probabilidade 1 temos que para qualquer ε > 0 a desigualdade é verdadeira para todo n grande suficiente. A lei forte não se sustenta nos seguintes casos, ao contrário da lei fraca:
Suponha que seja uma função definida por , contínua em . Então, para qualquer fixo, será uma sequência de variáveis aleatórias i.i.d., de modo que a média da amostra desta sequência converge em probabilidade para . Essa é a convergência pontual (em ).[29]
Lei Uniforme dos Grandes Números determina as condições sob as quais a convergência acontece uniformemente em [29]
Se
Então, é contínuo em , e Esse resultado é útil pra garantir consistência de uma grande classe de estimadores.[29][30][31]
A lei dos grandes números de Borel, denominada por Émile Borel, determina que se um experimento é repetido um grande número de vezes independentemente e sob condições idênticas, a proporção de vezes de qualquer evento específico ocorrer é aproximadamente igual a probabilidade da ocorrência do evento em uma tentativa particular (quanto maior o número de repetições melhor a aproximação tende a ser).[32]
Mais precisamente, se E denota o evento em questão, se p denota a sua probabilidade de ocorrência e se Nn(E) denota o número de vezes E ocorre nas primeiras n tentativas, então com probabilidade 1,.[32]
Considerando a Desigualdade de Chebyshev, seja X uma variável aleatória com valor esperado finito μ e variância finita diferente de zero σ2. Então, para qualquer número real k > 0, Esse teorema torna rigorosa a noção intuitiva de probabilidade como a frequência relativa de longo prazo da ocorrência de um evento. Esse é um caso especial de umas dos muitas leis gerais dos grandes números na teoria da probabilidade.[32]
|coautores=
requer |autor=
(ajuda)Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.