Lei dos grandes números

A lei dos grandes números (LGN) é um teorema fundamental da teoria da probabilidade, que descreve o resultado da realização da mesma experiência repetidas vezes. De acordo com a LGN, a média aritmética dos resultados da realização da mesma experiência repetidas vezes tende a se aproximar do valor esperado à medida que mais tentativas se sucederem. Em outras palavras, quanto mais tentativas são realizadas, mais a probabilidade da média aritmética dos resultados observados irá se aproximar da probabilidade real.^[1]

Factos rápidos

Ouça o artigo (info) noicon
Este áudio foi criado a partir da revisão datada de 19 de outubro de 2016 e pode não refletir mudanças posteriores ao artigo (ajuda).
Mais artigos audíveis

Fechar

A LGN tem aplicações práticas na ciência de modo geral, tal como na agricultura e na economia, dentre outras áreas importantes. É possível descobrir por meio de numerosas observações e de experiências suficientes a probabilidade de um evento natural acontecer (por exemplo, a probabilidade de chover) ou de uma fração de uma população satisfazer a uma condição (por exemplo, a probabilidade de ser produzida uma determinada quantidade de peças defeituosas em uma linha de montagem).^[2]

A LGN é importante ainda porque garante resultados estáveis a longo prazo para médias de eventos aleatórios. Considere um caso particular de um jogo de roleta em um cassino. Embora o cassino possa perder dinheiro em uma única rodada de uma roleta, os seus ganhos tenderão a se aproximar de uma probabilidade da média aritmética dos resultados observados depois de um grande número de rodadas. De outra forma, qualquer série de vitórias de um apostador será superada pelos parâmetros do jogo depois de algumas rodadas.^[3]

Entretanto, a LGN se aplica apenas para um grande número de observações. Não há princípio para que um pequeno número de observações coincida com o valor esperado ou para que a sequência de um valor seja superada por outro valor imediatamente (ver falácia do apostador).^[1]

Exemplos

Resumir

Perspectiva

Sorteio de bolas

A LGN trata de um resultado matemático. Imagine uma experiência com uma urna contendo bolas brancas e pretas em uma certa proporção. Imagine um sorteio de bolas da urna, em que uma pessoa retira uma bola de olhos fechados e outra pessoa anota a cor da bola e devolve a bola para a urna. Várias bolas são retiradas sucessivamente. Se a experiência for realizada repetidas vezes, a frequência relativa de bolas pretas sempre irá convergir para um determinado número. Esse número é a proporção de bolas pretas contidas na urna.^[4]

Se a urna tiver a mesma quantidade de bolas brancas e pretas, a porcentagem de vezes que as bolas pretas serão sorteadas irá convergir para o 50%. Do mesmo modo, se a urna tiver três bolas brancas e sete bolas pretas, a porcentagem de vezes que as bolas pretas serão sorteadas irá convergir para é 70%.^[4]

É possível verificar experimentalmente que a porcentagem de vezes em que uma bola preta é sorteada se aproxima de um determinado número entre 0 e 100%. Esse número é exatamente a proporção de bolas na urna, o que corresponde precisamente ao resultado matemático mencionado acima. Esse resultado é um teorema da teoria da probabilidade, que afirma que quanto mais sorteios são realizados mais a proporção de bolas pretas se aproxima de um número entre 0 e 1.^[4]

Lançamento de dado

Chamada de "Primeiro Teorema Fundamental de Probabilidade", a LGN é derivada da análise de jogos de azar como sorteio de bilhetes de loteria ou arremesso de dados. Um dado não viciado de seis lados pode cair 1, 2, 3, 4, 5 ou 6 em uma única jogada, todos com igual probabilidade. É possível calcular o valor médio de um lance de um dado não viciado de seis lados. Depois de várias jogadas, um a cada seis lances cairá 1, um a cada seis lances cairá 2 e assim por diante com todos os seis resultados possíveis. Contando todos os seis resultados possíveis, obtemos:

${\frac {1}{6}}\times 1+{\frac {1}{6}}\times 2+{\frac {1}{6}}\times 3+{\frac {1}{6}}\times 4+{\frac {1}{6}}\times 5+{\frac {1}{6}}\times 6={\frac {1+2+3+4+5+6}{6}}={\frac {21}{6}}=3,5$ .^[5]

Embora nenhum lado tenha o número 3,5 e nenhum lance resulte no valor 3,5, a LGN determina que a média dos lances de um dado não viciado de seis lados irá se aproximar cada vez mais de 3,5 depois de um grande número de jogadas. Em outras palavras, a soma do resultado particular (1, 2, 3, 4, 5 ou 6) de cada lance irá se aproximar cada vez mais de um sexto do número total de jogadas.^[5]

Distribuição de Bernoulli

Resumir

Perspectiva

Da LGN deduz–se que a probabilidade empírica de sucesso em uma série de uma distribuição de Bernoulli irá convergir para a probabilidade teórica. Para uma variável aleatória de Bernoulli, o valor esperado é a probabilidade teórica de sucesso e a média de n variáveis aleatórias independentes e identicamente distribuídas (i.i.d.) é precisamente a frequência relativa.^[6]

Um lançamento de uma moeda honesta é uma distribuição de Bernoulli. Quando uma moeda honesta é lançada uma vez, a probabilidade teórica de sair cara é igual a meio. Logo, a probabilidade de sair cara depois de um grande número de lançamentos deverá ser aproximadamente meio. De acordo com a LGN, a proporção de sair cara depois de n lançamentos irá convergir quase certamente para meio, à medida que n tende ao infinito.^[7]^[8]

Embora a proporção de caras e coroas se aproxime de meio, a diferença absoluta entre elas quase certamente irá aumentar à medida que mais lançamentos forem realizados. Isto é, a probabilidade de a diferença absoluta ser um número pequeno irá se aproximar de 0 à medida que mais lançamentos forem realizados. A proporção entre a diferença absoluta e o número de lançamentos também irá quase certamente se aproximar de 0.^[7]^[8]

Origem do termo

Resumir

Perspectiva

O matemático suíço Jakob Bernoulli (1654—1705) provou a LGN para variáveis aleatórias binárias, depois de o matemático italiano Girolamo Cardano (1501—1576) afirmar sem provas que a precisão das estatísticas empíricas tende a melhorar à medida que o número de tentativas aumenta.^[9]

Bernoulli levou mais de vinte anos para provar a fórmula matemática, que foi publicada em seu livro "A Arte da Conjectura" (Ars Conjectandi) por seu sobrinho Nicolau Bernoulli em 1713. Bernoulli afirmou que quanto maior o número de tentativas, mais a proporção de tentativas bem–sucedidas se aproxima de p com probabilidade próxima de 1.^[1]

“

Se um evento de probabilidade p é observado repetidamente em ocasiões independentes, a proporção da frequência observada do mesmo evento em relação ao número total de repetições convergem em direção a p à medida que o número de repetições se torna arbitrariamente grande.^[10]

”

— Jakob Bernoulli, em seu livro Ars Conjectandi

Bernoulli chamou a lei dos grandes números de "Teorema Dourado", porém o conceito ficou mais conhecido como "Teorema de Bernoulli". O teorema de Bernoulli não deve ser confundido com Princípio de Bernoulli, exposto mais tarde pelo seu outro sobrinho Daniel Bernoulli.^[11]

Em 1837 o matemático francês Siméon Denis Poisson (1781—1840) também descreveu o conceito da lei dos grandes números, que mais tarde ficou conhecido tanto como "Teorema de Bernoulli" quanto como pelo próprio nome da LGN, muito embora esse último seja o nome mais usado.^[12]^[13]^[14]

Depois das tentativas de Bernoulli e de Poisson, outros matemáticos contribuíram para o aprimoramento da LGN, incluindo Pafnuti Chebyshev, Andrei Markov, Émile Borel, Francesco Paolo Cantelli, Andrei Kolmogorov e Aleksandr Khinchin.^[6]

Esses novos estudos deram origem a duas formas proeminentes da LGN: a lei fraca dos grandes números e a lei forte dos grandes números. Tanto a lei fraca quanto a lei forte não definem conceitos diferentes, mas modos distintos de representar a convergência da probabilidade observada para a probabilidade real. Em particular, a lei forte implica a lei fraca.^[6]

Definição formal

Resumir

Perspectiva

Sejam $X_{1},X_{2},X_{3}...$ variáveis aleatórias i.i.d..

Seja $E(X_{i})=\mu$ e $Var(X_{i})=\sigma ^{2}<\infty$ .^[15]

Defina–se a média ${\overline {X}}_{n}={\frac {1}{n}}\sum _{i=1}^{n}X_{i}$ ..^[15]
Então, para cada $\varepsilon >0$ ,
Na lei fraca dos grandes números, ${\overline {X}}_{n}$ converge em probabilidade para $\mu$ .
Isto é, $\lim _{n\to \infty }P\left(\left|{\overline {X}}_{n}-\mu \right|<\varepsilon \right)=1$ .^[15]
Na lei forte dos grandes números, ${\overline {X}}_{n}$ converge quase certamente para o seu valor esperado $\mu$ .
Isto é, $P\left(\lim _{n\to \infty }\left|{\overline {X}}_{n}-\mu \right|<\varepsilon \right)=1$ ^[15]

Tanto para a lei fraca quanto para a lei forte, teve-se a suposição de uma variância finita. Embora seja verdadeira e desejável, na maioria das aplicações esta suposição é mais forte do que o necessário. Tanto a lei forte quanto a lei fraca se mantém sem essa suposição, de modo que a única condição necessária é que $E(X_{i})=\mu <\infty$ .^[15]

Entretanto, um exemplo em que a LGN não se aplica é a Distribuição de Cauchy. Sejam os números aleatórios iguais a tangente de um ângulo uniformemente distribuído entre − 90° e + 90°. A mediana é 0, mas o valor esperado não existe e a média dessas n variáveis tem a mesma distribuição de uma única variável. Isso não tende a 0 à medida que n tende ao infinito.^[16]

Formas

Resumir

Perspectiva

A LGN pode ser descrita de duas formas: a lei forte dos grandes números e a lei fraca dos grandes números, as quais diferem–se de acordo com a forma de convergência definida (ver variáveis aleatórias).^[17]

Considerando X₁, X₂, ... uma sequência infinita de variáveis aleatórias i.i.d. com valor esperado E(X₁) = E(X₂) = ... = µ, ambas as versões da LGN determinam quase certamente que a média da amostra

${\overline {X}}_{n}={\frac {1}{n}}(X_{1}+\cdots +X_{n})$

converge para o valor esperado

${\begin{matrix}{}\\{\overline {X}}_{n}\,\to \,\mu \qquad {\textrm {quando}}\qquad n\to \infty \\{}\end{matrix}}$ .^[17]

A suposição da variância finita Var(X₁) = Var(X₂) = ... = σ² < ∞ não é necessária. Embora a variância grande ou infinita torne a convergência mais lenta, a LGN é válida de qualquer maneira. Esta suposição muitas vezes é usada por tornar as provas mais curtas e fáceis.^[17]

Lei Fraca

Resumir

Perspectiva

Também chamada de Lei de Khinchin, a versão fraca da LGN determina que a média da amostra $\scriptstyle {\overline {X}}_{n}$ converge em probabilidade para o valor esperado. A lei fraca determina essencialmente que qualquer margem diferente de 0 especificada (não importa o quão pequena ela seja), com uma amostra suficientemente grande haverá uma probabilidade muito alta que a média das observações se aproximará do valor esperado. Isto é, dentro da margem.^[18]

A variância pode ser diferente para cada variável aleatória em séries, mantendo o valor esperado constante. Se as variâncias são limitadas, a lei fraca é aplicada como mostrou Chebyshev em 1867 (se os valores esperados mudarem durante as séries, podemos simplesmente aplicar a lei fraca para o desvio médio dos respectivos valores esperados. Então, a lei fraca determina que isso converge para probabilidade 0). Provas de Chebyshev valem para até quando a variância da média dos primeiros n valores tendem a 0 à media que n tende ao infinito.^[19]

O nome "lei fraca" deve–se ao fato de as variáveis aleatórias convergirem de maneira fraca ou em probabilidade. O termo aplica–se no caso de as variáveis aleatórias i.i.d. terem um valor esperado.^[19]

Teorema

Seja $X_{i}$ uma sequência de variáveis aleatórias independentes tomadas dois a dois. Seja essa sequência de variância finita e uniformemente limitada. Tem–se a lei fraca da LGN. Também, podemos entender de ponto de vista algébrico como existe um $c\in \mathbb {R}$ , tal que $Var[X_{i}]\leq c$ .^[20]

Demonstração

Uma soma de uma sequência de variáveis aleatórias pode ser escrita como

$S_{n}=\sum _{i=1}^{n}X_{i}$ .^[20]

A independência de $X_{i}$ implica

$Var[S_{n}]=\sum _{i=1}^{n}Var[X_{i}]\leq nc$ .^[20]

Prova da Lei Fraca, usando a Desigualdade de Chebyshev

De acordo com a Desigualdade de Chebyshev, temos:
$P[\left|S_{n}-E[S_{n}]\right|]\geq \varepsilon n]\leq {\frac {Var[S_{n}]}{\varepsilon ^{2}n^{2}}}\leq {\frac {c}{\varepsilon ^{2}n^{2}}}\to 0$ , quando $n\to \infty$ .^[21]
Logo, obtemos:
${\frac {S_{n}-E[S_{n}]}{n}}\to 0$ , lembrando que está convergindo para 0 com a probabilidade.^[21]

Prova da Lei Fraca, usando a Convergência de Funções Características

De acordo com o Teorema de Taylor para funções complexas, a função característica para qualquer variável X com média finita μ pode ser escrita como:
$\varphi _{X}(t)=1+it\mu +o(t),\quad t\rightarrow 0$ ..^[22]
Todo X₁, X₂, ... possuem a mesma função característica. Então, iremos simplesmente denotar isso como $\varphi _{X}$ Entre as propriedades básicas das funções características estão:
$\varphi _{{\frac {1}{n}}X}(t)=\varphi _{X}({\tfrac {t}{n}})\quad {\text{e}}\quad \varphi _{X+Y}(t)=\varphi _{X}(t)\varphi _{Y}(t)\quad$ , se X eY forem independentes.^[22]
Estas regras podem ser usadas para calcular a função característica de $\scriptstyle {\overline {X}}_{n}$ em termos de $\varphi _{X}$ :

$\varphi _{{\overline {X}}_{n}}(t)=\left[\varphi _{X}\left({t \over n}\right)\right]^{n}=\left[1+i\mu {t \over n}+o\left({t \over n}\right)\right]^{n}\,\rightarrow \,e^{it\mu },\quad {\text{à medida que}}\quad n\rightarrow \infty$ .^[22]

O limite e^itμ é a função característica da variável aleatória constante μ, e, portanto, de acordo com o Teorema de Continuidade de Levy, $\scriptstyle {\overline {X}}_{n}$ converge em distribuição para μ:

${\overline {X}}_{n}\,{\xrightarrow {\mathcal {D}}}\,\mu \qquad {\text{para}}\qquad n\to \infty$ ..^[22]
μ é uma constante, o que implica que a convergência em distribuição para μ e a convergência em probabilidade para μ são equivalentes (ver convergência de variáveis aleatórias).^[22]
Então,
${\begin{matrix}{}\\{\overline {X}}_{n}\ {\xrightarrow {P}}\ \mu \qquad {\textrm {quando}}\ n\to \infty \\{}\end{matrix}}$ ^[22]

Isso mostra que a média da amostra converge em probabilidade para a derivada da função característica na origem, enquanto a função característica existir.^[22]

Lei Forte

Resumir

Perspectiva

A versão forte da LGN afirma que a aproximação pela frequência relativa tende a melhorar quando o número de observações aumenta. Especificamente, a lei forte determina que a média de uma sequência de variáveis aleatórias i.i.d. com probabilidade "1" converge para a média da distribuição. Isto é, quanto maior o conjunto das observações dos dados mais próximo ele estará da sua própria média. Portanto, nenhuma informação é desconsiderada implicando na probabilidade 1.^[23]^[24]

O nome "lei forte" deve–se ao fato de as variáveis aleatórias convergirem de maneira forte ou quase certamente, sendo que convergência quase certa também é chamada de convergência forte de variáveis aleatórias.^[23]^[24]

Retoma–se aqui a ideia de que a lei forte implica a lei fraca, embora o contrário não aconteça, quando as condições para a lei forte garantem que a variável convirja tanto fortemente ou quase certamente quanto fracamente ou em probabilidade. A lei fraca pode acontecer em condições em que lei forte não pode acontecer, de modo que a convergência é apenas em probabilidade.^[23]^[24]

Teorema

Seja $X_{1},X_{2},\dots ,X_{n}$ uma sequência de variáveis aleatórias i.i.d., cada uma com média finita $\mu =E[X_{i}]$ . Então, com probabilidade 1 na qual podemos entender com a expressão matemática:

$P{\Bigg \{}\lim _{n\to \infty }{\frac {(X_{1}+X_{2}+X_{3}+...+X_{n})}{n}}=\mu {\Bigg \}}=1$ .^[1]

Em palavras, $n$ representa a quantidade de variáveis aleatórias. Para se obter a média de um conjunto de 2 elementos, basta dividir por 2, o que resulta em média 1. Para se obter a média de uma quantidade grande de conjuntos, basta dividir pela sua quantidade de conjuntos. Portanto, em todos os casos de quantidade grande de conjuntos, podemos olhar quando $n$ está no infinito, mas não é o infinito. Isto é, no caso geral estuda–se quando o comportamento da média pode ser a maior de todas, o que leva ao infinito do ponto de vista algébrico. É importante destacar a sutileza entre as propriedades de limite, as quais afirmam que a razão entre um numero e o infinito será 0. Em estatística, intuitivamente a probabilidade disso acontecer é 1.^[1]

Como exemplo de aplicação da lei forte, suponha que seja realizada uma sequência de tentativas independentes de um experimento. Suponha que $E$ seja um evento fixo do experimento e que a probabilidade $P(E)$ desse evento represente a probabilidade de que $E$ ocorra em qualquer tentativa particular. Fazendo com base na Distribuição Bernoulli

$X_{i}={\begin{cases}1&{\text{se }}E{\text{ ocorrer na }}i{\text{-}}{\acute {e}}{\text{sima tentativa}}\\0&{\text{se }}E{\text{ não ocorrer na }}i{\text{-}}{\acute {e}}{\text{sima tentativa}}\\\end{cases}}$

temos pela Lei Forte que com probabilidade 1,

${\frac {(X_{1}+X_{2}+X_{3}+...+X_{n})}{n}}\to E[X]=P(E)$ .^[1]

Como ${\frac {(X_{1}+X_{2}+X_{3}+...+X_{n})}{n}}$ representa o número de vezes em que o evento $E$ ocorre nas primeiras $n$ tentativas, podemos interpretar a expressão ${\frac {(X_{1}+X_{2}+X_{3}+...+X_{n})}{n}}\to E[X]=P(E)$ como se com probabilidade 1 a proporção limite do tempo de ocorrência do evento $E$ fosse justamente $P(E)$ . Embora o teorema possa ser demonstrado sem esta hipótese, a demonstração seguinte da lei forte supõe que as variáveis aleatórias $X_{i}$ possuem um quarto momento finito. Isto é, supomos que $E[X_{i}^{4}]=K<\infty$ .^[1]

Demonstração

A demonstração da lei forte é mais complexa que a demonstração da lei fraca. A lei forte justifica a interpretação intuitiva do valor esperado de uma variável aleatória quando testada repetidamente como a média de longo prazo.^[24]

Suponha que a média de $X_{i}$ seja igual a 0. Isto é, $\mu =0$ .

Também considere a soma das variáveis, na qual é representada $S_{n}=\sum _{i=1}^{n}X_{i}$ .
Podemos anotar o valor esperado do quarto momento desta soma na linguagem algébrica como $E[S_{n}^{4}]$ , supondo ele finito.
Seja a potência 4 para o valor esperado, temos do ponto de vista algébrico por decorrência das propriedades de potência a expressão
$S_{n}^{4}=(X_{1}+X_{2}+...+X_{n})(X_{1}+X_{2}+...+X_{n})(X_{1}+X_{2}+...+X_{n})(X_{1}+X_{2}+...+X_{n})$ .
Intencionando calcular o valor esperado para a soma, encontramos a expressão
$E[S_{n}^{4}]=E[(X_{1}+X_{2}+...+X_{n})(X_{1}+X_{2}+...+X_{n})(X_{1}+X_{2}+...+X_{n})(X_{1}+X_{2}+...+X_{n})]$ .
Já aplicando o método simples da distributiva nos fatores do valor esperado, obtemos uma expansão que resulta em termos $X_{i}^{4},X_{i}^{3}X_{j},X_{i}^{2}X_{j}^{2},X_{i}^{2}X_{j}X_{k}$ e $X_{i}X_{j}X_{k}X_{l}$ , em que $i,j,k$ e $l$ são todos diferentes.
Como por suposição todas as variáveis aleatórias $X_{i}$ têm média 0, resulta da independência destas variáveis que
$E[X_{i}^{3}X_{j}]=E[X_{i}^{3}]E[X_{j}]=0$
$E[X_{i}^{2}X_{j}X_{k}]=E[X_{i}^{2}]E[X_{j}]E[X_{j}]=0$
$E[X_{i}X_{j}X_{k}X_{l}]=0$

Para um dado par $i$ e $j$ , haverá ${4 \choose 2}=6$ termos na expansão que serão iguais a $X_{i}^{2}X_{j}^{2}$ .
Expandido o produto anterior e calculando as esperanças ou o valor esperado termo a termo, obtemos
$E[S_{n}^{4}]=nE[X_{i}^{4}]+6{n \choose 2}E[X_{i}^{2}X_{i}^{2}]=nk+3n(n-1)E[X_{i}^{2}]E[X_{j}^{2}]$ .
Por hipótese de independência, agora como
$0\leq Var(X_{i}^{2})=E[X_{i}^{4}]-(E[X_{i}^{2}])^{2}$
temos
$(E[X_{i}^{2}])^{2}\leq E[X_{i}^{4}]=K$ .
Do desenvolvimento anterior, obtemos que
$E[S_{n}^{4}]\leq nK+3n(n-1)K$

o que implica
$E{\Bigg [}{\frac {S_{n}^{4}}{n^{4}}}{\Bigg ]}\leq {\frac {K}{n^{3}}}+{\frac {3K}{n^{2}}}$ .
Portanto,
$E{\Bigg [}\sum _{n=1}^{\infty }{\frac {S_{n}^{4}}{n^{4}}}{\Bigg ]}=\sum _{n=1}^{\infty }E{\Bigg [}{\frac {S_{n}^{4}}{n^{4}}}{\Bigg ]}<\infty$ .

Lembrando que para a probabilidade 1, $\sum _{n=1}^{\infty }{\frac {S_{n}^{4}}{n^{4}}}<\infty$ .
Se for $\infty$ , a soma converge para 0. Portanto, seu resultado será 0. Em estatística, se houver a probabilidade positiva de que a soma seja infinita, então o seu valor esperado é infinito. Entretanto a convergência da série implica que seu $n$ -ésimo termos tenda a 0. Portanto, concluímos que com probabilidade 1
$\lim _{n\to \infty }{\frac {S_{n}^{4}}{n^{4}}}=0$ .^[1]
Entretanto, se ${\frac {S_{n}^{4}}{n^{4}}}={\Bigg (}{\frac {S_{n}}{n}}{\Bigg )}^{4}$ tende a $0$ , então ${\frac {S_{n}}{n}}$ também tenderá a $0$ . Essa é a prova com probabilidade 1.^[1]
Quando $\mu$ é a média de $X_{i}$ diferente de 0, podemos aplicar o argumento anterior às varáveis aleatórias $X_{i}-\mu$ para obtermos que com probabilidade 1
$\lim _{n\to \infty }\sum _{i=1}^{n}{\frac {(X_{i}-\mu )}{n}}=0$ .^[1]
Isto é,
$\lim _{n\to \infty }\sum _{i=1}^{n}{\frac {(X_{i})}{n}}=\mu$ .^[1]

Lei Forte de Kolmogorov

A lei forte pode por si só ser vista como um caso especial de Teoria Ergódica e aplica–se para variáveis aleatórias i.i.d. com um valor esperado como a Lei Fraca, o que foi provado por Kolmogorov em 1930. Em 1933, Kolmogorov também mostrou que se as variáveis são independentes e identicamente distribuídas, para a média convergir quase certamente para algo (o que pode ser considerado outra afirmação da Lei Forte) é necessário que elas tenham um valor esperado (então, a média irá convergir quase certamente no valor esperado).^[6]

Se X_k são independentes e não identicamente distribuídas, logo:

${\bar {X}}_{n}-\operatorname {E} {\big [}{\bar {X}}_{n}{\big ]}\ {\xrightarrow {\ }}0,$

dado que cada X_k possui um segundo momento finito e que

$\sum _{k=1}^{\infty }{\frac {1}{k^{2}}}\operatorname {Var} [X_{k}]<\infty$ .^[25]

Esta afirmação é conhecida como a Lei Forte de Kolmogorov.^[26]

Um exemplo de uma série em que a lei fraca aplica–se, mas a lei forte não se aplica, é quando X_k é maior ou menor que ${\sqrt {k/\log \log \log k}}$ (iniciando com k suficientemente grande para que o denominador seja positivo) com probabilidade meio para cada. Logo, a variância de X_k é $k/\log \log \log k.$ Lei Forte de Kolmogorov não aplica–se porque a soma parcial em seu critério de até k = n é assintótica para $\log n/\log \log \log n$ e isso não possui limites.

Diferenças entre a Lei Forte e a Lei Fraca

Lei Fraca mostra que para qualquer grande valor de $n$ especifico (adotando $n$ como $k$ ), é provável que ${\frac {(X_{1}+...+X_{k})}{k}}$ esteja próximo de $\mu$ . Entretanto, isso não significa que ${\frac {(X_{1}+...+X_{n})}{n}}$ permanecerá próximo de $\mu$ para todos os valores de $n$ maiores de $k$ .

Existe a possibilidade de que grandes valores de ${\Bigg |}{\frac {(X_{1}+...+X_{n})}{n}}-\mu {\Bigg |}$ possam ocorrer de forma infinitamente frequente, porém a lei forte mostra que isso não pode ocorrer. Em particular, ela implica que isso não pode ocorrer com probabilidade 1 para qualquer valor positivo $\varepsilon$ .

A lei fraca, por sua vez, determina que para um tamanho específico n, a média ${\overline {X}}_{n}$ deve ficar próxima de $\mu$ . Logo, isso deixa aberta a possibilidade de $|{\overline {X}}_{n}-\mu |>\varepsilon$ acontecer infinitos números de vezes, embora em intervalos infrequentes (não necessariamente $|{\overline {X}}_{n}-\mu |\neq 0$ para todo n).

A lei forte mostra que isso quase certamente não acontece. Em particular, isso implica que com probabilidade 1 temos que para qualquer ε > 0 a desigualdade $|{\overline {X}}_{n}-\mu |<\varepsilon$ é verdadeira para todo n grande suficiente. A lei forte não se sustenta nos seguintes casos, ao contrário da lei fraca:

Seja X uma variável aleatória distribuída exponencialmente com parâmetro 1. A variável aleatória ${\frac {\operatorname {sen}(X)e^{X}}{X}}$ não tem valor esperado, de acordo com a Integral de Lebesgue. Entretanto, usando a convergência condicional e interpretando a integral como a Integral de Dirichlet, a qual é impropriamente a Integral Riemann, é possível afirmar que $E\left({\frac {\operatorname {sen}(X)e^{X}}{X}}\right)=\ \int _{0}^{\infty }{\frac {\operatorname {sen}(x)e^{x}}{x}}e^{-x}dx={\frac {\pi }{2}}$ .
Seja X uma distribuição geométrica com probabilidade 0,5. A variável aleatória ${\frac {2^{X}(-1)^{X}}{X}}$ não tem valor esperado no sentido convencional porque séries convergentes não são absolutamente convergentes. Entretanto, usando a convergência condicional, é possível afirmar que $E\left({\frac {2^{X}(-1)^{X}}{X}}\right)=\ \sum _{x=1}^{\infty }{\frac {2^{x}(-1)^{x}}{x}}2^{-x}=-\ln(2)$ .
Se a função de distribuição acumulada f(x) de uma variável aleatória for

1-F(x)={\frac {e}{2x\ln(x)}},x\geq e

F(x)={\frac {e}{-2x\ln(-x)}},x\leq -e

Então, não há valor esperado, mas a lei fraca é verdadeira.^[27]^[28]

Lei Uniforme dos Grandes Números

Resumir

Perspectiva

Suponha que $f(x,\theta )$ seja uma função definida por $\theta \in \Theta$ , contínua em $\theta$ . Então, para qualquer $\theta$ fixo, $\{f(X_{1},\theta ),f(X_{2},\theta ),\dots \}$ será uma sequência de variáveis aleatórias i.i.d., de modo que a média da amostra desta sequência converge em probabilidade para $E[f(X,\theta )]$ . Essa é a convergência pontual (em $\theta$ ).^[29]

Lei Uniforme dos Grandes Números determina as condições sob as quais a convergência acontece uniformemente em $\theta$ ^[29]

$\Theta$ é compacto.
$f(x,\theta )$ é contínuo em cada $\theta \in \Theta$ para quase todo $x$ , e uma função mensurável de $x$ em cada $\theta$ .
existe uma função dominante $d(x)$ como $E[d(X)]<\infty$ , e $\left\|f(x,\theta )\right\|\leq d(x)\quad {\text{para todo}}\ \theta \in \Theta$ .

Então, $E[f(X,\theta )]$ é contínuo em $\theta$ , e $\sup _{\theta \in \Theta }\left\|{\frac {1}{n}}\sum _{i=1}^{n}f(X_{i},\theta )-\operatorname {E} [f(X,\theta )]\right\|{\xrightarrow {\ }}0.$ Esse resultado é útil pra garantir consistência de uma grande classe de estimadores.^[29]^[30]^[31]

Lei dos Grandes Números de Borel

Resumir

Perspectiva

A lei dos grandes números de Borel, denominada por Émile Borel, determina que se um experimento é repetido um grande número de vezes independentemente e sob condições idênticas, a proporção de vezes de qualquer evento específico ocorrer é aproximadamente igual a probabilidade da ocorrência do evento em uma tentativa particular (quanto maior o número de repetições melhor a aproximação tende a ser).^[32]

Mais precisamente, se E denota o evento em questão, se p denota a sua probabilidade de ocorrência e se N_n(E) denota o número de vezes E ocorre nas primeiras n tentativas, então com probabilidade 1, ${\frac {N_{n}(E)}{n}}\to p{\text{ à medida que }}n\to \infty \$ .^[32]

Considerando a Desigualdade de Chebyshev, seja X uma variável aleatória com valor esperado finito μ e variância finita diferente de zero σ². Então, para qualquer número real k > 0, $P(|X-\mu |\geq k\sigma )\leq {\frac {1}{k^{2}}}.$ Esse teorema torna rigorosa a noção intuitiva de probabilidade como a frequência relativa de longo prazo da ocorrência de um evento. Esse é um caso especial de umas dos muitas leis gerais dos grandes números na teoria da probabilidade.^[32]

Ver também

Bibliografia

DURRETT, Richard. Probability: Theory and Examples. 5th ed. Cambridge: Cambridge University Press, 2019.
GRIMMETT, Geoffrey R.; STIRZAKER, David R. Probability and Random Processes. 4th ed. Oxford: Oxford University Press, 2001.
JAMES, Barry R. Probabilidade: um curso em nível intermediário. 5. ed. Rio de Janeiro: IMPA, 2023.
LEHMANN, Erich L.; ROMANO, Joseph P. Testing Statistical Hypotheses. 3rd ed. New York: Springer, 2005.

Referências

[1]
Ross, Sheldon (2010). Probabilidade - Um Curso Moderno com Aplicações. Porto Alegre: Bookman. 472 páginas
[2]
Lopes, Eric. «Lei dos Grandes Números em Sistemas Aparentemente Aleatórios» (PDF). Universidade Estadual de Campinas (UNICAMP). 4 páginas. Consultado em 23 de outubro de 2016
[3]
Celso Ribeiro Campos; Maria Lucia Lorenzetti Wodewotzki, Otávio Roberto Jacobini, Denise Helena Lombardo Ferreira (2013). «Quebrando a Banca - A Probabilidade e os Cassinos». Prometeica - Revista de Filosofía y Ciencias: 72 - 85. Consultado em 23 de outubro de 2013
[4]
Galves, Antonio (2016). «A Brain Soccer Derby: A NeuroMat Story by Antonio Galves». Centro de Pesquisa, Inovação e Difusão em Neuromatemática (CEPID NeuroMat). Consultado em 23 de outubro de 2016
[5]
«Lei dos Grandes Números». Portal Action. Consultado em 23 de outubro de 2016
[6]
Seneta, Eugene (2006). «A Tricentenary history of the Law of Large Numbers». Universidade de Sydney. p. 1. Consultado em 23 de outubro de 2016
[7]
Liberal, Tarciana. «Distribuição de Bernoulli e Binomial» (PDF). Universidade Federal da Paraíba (UFPB). 2 páginas. Consultado em 23 de outubro de 2016
[8]
Colcher, Sérgio. «Modelagem Analítica do Desempenho de Sistemas de Computação - Algumas Distribuições» (PDF). Pontifícia Universidade Católica do Rio de Janeiro (PUC - Rio). 4 páginas. Consultado em 23 de outubro de 2016
[9]
Mlodinow, Leonard (2008). The Drunkard's Walk. New York: Random House. Nova Iorque: Pantheon Books. 50 páginas
[10]
Bernoulli, Jakob. Ars Conjectandi: Usum & Applicationem Praecedentis Doctrinae in Civilibus, Moralibus e Oeconomicis.
[11]
Bernstein, Peter L. Desafio aos Deuses: A Fascinante História do Risco. [S.l.]: Elsevier. 121 páginas
[12]
Poisson, Siméon-Denis (1837). Probabilité des Jugements en Matière Criminelle et en Matière Civile, Précédées des Règles Générales du Calcul des Probabilitiés. Paris: Bachelier. pp. 139 – 143
[13]
Poisson, Siméon-Denis (1837). Probabilité des Jugements en Matière Criminelle et en Matière Civile, Précédées des Règles Générales du Calcul des Probabilitiés. Paris: Bachelier. 277 páginas
[14]
Hacking, Ian. «Nineteenth Century Cracks in the Concept of Determinism». Journal of the History of Ideas: 455 - 475. Consultado em 23 de outubro de 2016
[15]
Casella, George; Berger, Roger L. (2002). Statistical Inference. Duxbury: Thomson Learning
[16]
«Distribuição de Cauchy». Portal Action. Consultado em 23 de outubro de 2016
[17]
«Law of Large Numbers». Encyclopedia of Mathematics. Consultado em 23 de outubro de 2016
[18]
Loève, Michel (1977). Probability Theory I. Ann Arbor: Springer - Verlag. p. 14
[19]
Rosales, Rafael A. (2011). «Introdução a Estatística e Probabilidade II» (PDF). Faculdade de Filosofia, Ciências e Letras de Ribeirão Preto da Universidade de São Paulo (FFCLRP / USP). Consultado em 23 de outubro de 2016
[20]
Ross, Sheldon (2010). Probabilidade - Um Curso Moderno com Aplicações. Porto Alegre: Bookman. 459 páginas
[21]
Chebyshev, Pafnuti (1846). «Démonstration Élémentaire d'une Proposition Générale de la Théorie des Probabilités». Journal für die reine und angewandte Mathematik (Crelles Journal): 259 - 267
[22]
«Lei Fraca dos Grandes Números». Portal Action. Consultado em 23 de outubro de 2016
[23]
«Strong Law of Large Numbers». Encyclopedia of Math. Consultado em 23 de outubro de 2016
[24]
«The Strong Law of Large Numbers». Terry Tao. Consultado em 23 de outubro de 2016
[25]
Magalhães, Marcos Nascimento (2004). Probabilidade de Variáveis Aleatõrias. São Paulo: EdUSP. 328 páginas
[26]
Sen, Pranab K.; Singer, Julio M. (1994). Large Sample Methods in Statistics - An Introduction with Applications. Boca Raton: Chapman & Hall / CRC. 67 páginas
[27]
Mukherjee, Sayan. «Law of Large Numbers» (PDF). 1 páginas. Consultado em 23 de outubro de 2016
[28]
Geyer, Charles J. «The Weak Law of Large Numbers» (PDF). 1 páginas. Consultado em 23 de outubro de 2016
[29]
Rodríguez, Carlos C. (2004). «Uniform Laws of Large Numbers» (PDF). 5 páginas. Consultado em 23 de outubro de 2016
[30]
Jennrich, Robert I. «Asymptotic Properties of Non-Linear Least Squares Estimators». The Annals of Mathematical Statistics: 633 – 643
[31]
«Large Sample Estimation and Hypothesis Testing.» (PDF). Elsevier. Handbook of Econometrics: 2111 – 2245. Consultado em 23 de outubro de 2016 |coautores= requer |autor= (ajuda)
[32]
Wen, Liu. «An Analytic Technique to Prove Borel's Strong Law of Large Numbers». Mathematical Association of America. The American Mathematical Monthly: 146 - 148. Consultado em 23 de outubro de 2016

Ligações externas

Loading content...

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.