Loading AI tools
Da Wikipédia, a enciclopédia livre
A frequência de letras em um texto tem sido frequentemente estudada para uso em criptografia e análise de frequência em particular. Nenhuma distribuição de frequência de letras exata é subjacente a uma determinada língua, uma vez que todos os escritores escrevem um pouco diferente. As máquinas de linotipo classificaram as frequências das letras, como etaoin shrdlu cmfwyp vbgkqj xz com base na experiência e costume dos escritores manuais na língua inglesa. Da mesma forma, o moderno código Morse Internacional codifica as letras mais frequentes com o menor número de símbolos, organizando o alfabeto Morse em grupos de letras que exigem quantidades iguais de tempo para transmitir, e, em seguida, classificando os grupos em ordem crescente, resultando em uma ordem e it san hurdm wgvlfbk opjxcz yq. Ideias semelhantes são utilizadas em modernas técnicas de compressão de dados, tais como a Codificação de Huffman.
Análises mais recentes mostram que as frequências de letras, da mesma forma que as frequências de palavras, tendem a variar, tanto pelo escritor quanto pelo assunto. Não se pode escrever um ensaio sobre raios-x sem uso frequente de letras Xs, e a redação terá uma frequência de letras especialmente estranha se o ensaio é sobre o uso frequente de raios-x para o tratamento de zebras no Qatar. Diferentes autores têm hábitos que podem ser refletidos no uso das letras. O estilo de escrita de Hemingway, por exemplo, é visivelmente diferente do estilo de Faulkner. Letras, bigramas, trigramas, as frequências de palavras, o comprimento das palavras, e o comprimento das sentenças podem ser calculados por autor específico, e usados para provar ou negar a autoria dos textos, mesmo para os autores cujos estilos não são tão divergentes.
Uma média precisa de frequências de letras só pode ser adquirida através da análise de uma grande quantidade de textos representativos. Com a disponibilidade da computação moderna e coleções de grandes corpora de texto, esses cálculos são feitos facilmente.
Herbert S. Zim, em seu clássico texto introdutório de criptografia "Codes and Secret Writing", dá a sequência da frequência de letras em Inglês como sendo "ETAON RISHD LFCMU GYPWB VKXJQ Z", os pares de letras mais comuns como sendo "TH HE AN RE ER IN ON AT ND ST ES EN OF TE ED OR TI HI AS TO", e as letras dobradas mais comuns como sendo "LL EE SS OO TT FF RR NN PP CC".[1]
As doze letras mais frequentes incluem cerca de 80% do uso total. As oito letras mais frequentes incluem cerca de 65% do uso total. Um espião com a cifra VIC ou alguma outra cifra baseada em um tabuleiro de xadrez straddling normalmente utiliza um mnemônico, como "a sin to err" (deixando de lado o segundo "r") para lembrar as 8 letras (a,s,i,n,t,o,e,r) mais frequentes (neste exemplo, em inglês).
A utilização das frequências das letras e análise de frequência desempenha um papel fundamental em vários jogos, incluindo jogo da forca, palavras cruzadas(Scrabble), e criptogramas, entre outros.
Frequências de letras tem um forte impacto no projeto de alguns teclados. As letras mais frequentes ficam na linha superior do teclado AZERTY. As letras mais frequentes ficam na linha inferior do teclado Blickensderfer. As letras mais frequentes ficam na linha central do teclado Simplificado Dvorak.
A frequência das letras na língua portuguesa estão listadas abaixo[2]
Letra | Frequência |
---|---|
a | 14.63% |
b | 1.04% |
c | 3.88% |
d | 4.99% |
e | 12.57% |
f | 1.02% |
g | 1.30% |
h | 1.28% |
i | 6.18% |
j | 0.40% |
k | 0.02% |
l | 2.78% |
m | 4.74% |
n | 5.05% |
o | 10.73% |
p | 2.52% |
q | 1.20% |
r | 6.53% |
s | 7.81% |
t | 4.34% |
u | 4.63% |
v | 1.67% |
w | 0.01% |
x | 0.21% |
y | 0.01% |
z | 0.47% |
A frequência das letras na língua inglesa estão listadas abaixo.[3][4][5]
No entanto, esta tabela é um pouco diferente de outras, como a do Projeto da Universidade de Cornell Math Explorer[6] que avaliou mais de 40 000 palavras.
Letra | Frequência |
---|---|
a | 8.167% |
b | 1.492% |
c | 2.782% |
d | 4.253% |
e | 12.702% |
f | 2.228% |
g | 2.015% |
h | 6.094% |
i | 6.966% |
j | 0.153% |
k | 0.772% |
l | 4.025% |
m | 2.406% |
n | 6.749% |
o | 7.507% |
p | 1.929% |
q | 0.095% |
r | 5.987% |
s | 6.327% |
t | 9.056% |
u | 2.758% |
v | 0.978% |
w | 2.360% |
x | 0.150% |
y | 1.974% |
z | 0.074% |
Em Inglês, o espaço é ligeiramente mais frequente do que a letra com mais frequência (7% mais frequentes do que, ou 107% mais frequente em relação à letra, e), e os caracteres não alfabéticos (dígitos, pontuação, etc) ocupam a quarta posição, entre t e a.[7]
Frequências de aparecimento como primeira letra de uma palavra:[8]
Letra | Frequência |
---|---|
a | 11.602% |
b | 4.702% |
c | 3.511% |
d | 2.670% |
e | 2.000% |
f | 3.779% |
g | 1.950% |
h | 7.232% |
i | 6.286% |
j | 0.631% |
k | 0.690% |
l | 2.705% |
m | 4.374% |
n | 2.365% |
o | 6.264% |
p | 2.545% |
q | 0.173% |
r | 1.653% |
s | 7.755% |
t | 16.671% |
u | 1.487% |
v | 0.619% |
w | 6.661% |
x | 0.005% |
y | 1.620% |
z | 0.050% |
Letra | Francês [9] | Alemão [10] | Espanhol [11] | Português [12] | Esperanto [13] | Italiano[14] | Turco | Sueco[15] | Polonês[16] | Toki Pona [17] | Holandês [18] |
---|---|---|---|---|---|---|---|---|---|---|---|
a | 7.636% | 6.51% | 12.53% | 14.63% | 12.12% | 11.74% | 11.68% | 9.3% | 8.0% | 17.2% | 7.49% |
b | 0.901% | 1.89% | 1.42% | 1.04% | 0.98% | 0.92% | 2.95% | 1.3% | 1.3% | 0.0% | 1.58% |
c | 3.260% | 3.06% | 4.68% | 3.88% | 0.78% | 4.5% | 0.97% | 1.3% | 3.8% | 0.0% | 1.24% |
d | 3.669% | 5.08% | 5.86% | 4.99% | 3.04% | 3.73% | 4.87% | 4.5% | 3.0% | 0.0% | 5.93% |
e | 14.715% | 17.40% | 13.68% | 12.57% | 8.99% | 11.79% | 9.01% | 9.9% | 6.9% | 7.4% | 18.91% |
f | 1.066% | 1.66% | 0.69% | 1.02% | 1.03% | 0.95% | 0.44% | 2.0% | 0.1% | 0.0% | 0.81% |
g | 0.866% | 3.01% | 1.01% | 1.30% | 1.17% | 1.64% | 1.34% | 3.3% | 1.0% | 0.0% | 3.40% |
h | 0.737% | 4.76% | 0.70% | 1.28% | 0.38% | 1.54% | 1.14% | 2.1% | 1.0% | 0.0% | 2.38% |
i | 7.529% | 7.55% | 6.25% | 6.18% | 10.01% | 11.28% | 8.27%* | 5.1% | 7.0% | 14.8% | 6.50% |
j | 0.545% | 0.27% | 0.44% | 0.40% | 3.50% | 0.00% | 0.01% | 0.7% | 1.9% | 3.0% | 1.46% |
k | 0.049% | 1.21% | 0.01% | 0.02% | 4.16% | 0.00% | 4.71% | 3.2% | 2.7% | 5.1% | 2.25% |
l | 5.456% | 3.44% | 4.97% | 2.78% | 6.14% | 6.51% | 5.75% | 5.2% | 3.1% | 10.2% | 3.57% |
m | 2.968% | 2.53% | 3.15% | 4.74% | 2.99% | 2.51% | 3.74% | 3.5% | 2.4% | 4.4% | 2.21% |
n | 7.095% | 9.78% | 6.71% | 5.05% | 7.96% | 6.88% | 7.23% | 8.8% | 4.7% | 11.6% | 10.03% |
o | 5.378% | 2.51% | 8.68% | 10.73% | 8.78% | 9.83% | 2.45% | 4.1% | 7.1% | 7.7% | 6.06% |
p | 3.021% | 0.79% | 2.51% | 2.52% | 2.74% | 3.05% | 0.79% | 1.7% | 2.4% | 3.7% | 1.57% |
q | 1.362% | 0.02% | 0.88% | 1.20% | 0.00% | 0.51% | 0 | 0.007% | - | 0.0% | 0.009% |
r | 6.553% | 7.00% | 6.87% | 6.53% | 5.91% | 6.37% | 6.95% | 8.3% | 3.5% | 0.0% | 6.41% |
s | 7.948% | 7.27% | 7.98% | 7.81% | 6.09% | 4.98% | 2.95% | 6.3% | 3.8% | 4.1% | 3.73% |
t | 7.244% | 6.15% | 4.63% | 4.34% | 5.27% | 5.62% | 3.09% | 8.7% | 2.4% | 4.6% | 6.79% |
u | 6.311% | 4.35% | 3.93% | 4.63% | 3.18% | 3.01% | 3.43% | 1.8% | 1.8% | 3.2% | 1.99% |
v | 1.628% | 0.67% | 0.90% | 1.67% | 1.90% | 2.10% | 0.98% | 2.4% | - | 0.0% | 2.85% |
w | 0.114% | 1.89% | 0.02% | 0.01% | 0.00% | 0.00% | 0 | 0.03% | 3.6% | 2.8% | 1.52% |
x | 0.387% | 0.03% | 0.22% | 0.21% | 0.00% | 0.00% | 0 | 0.1% | - | 0.0% | 0.04% |
y | 0.308% | 0.04% | 0.90% | 0.01% | 0.00% | 0.00% | 3.37% | 0.6% | 3.2% | 0.0% | 0.035% |
z | 0.136% | 1.13% | 0.52% | 0.47% | 0.50% | 0.49% | 1.50% | 0.02% | 5.1% | 0.0% | 1.39% |
à | 0.486% | 0 | 0 | ver a | 0 | ver a | 0 | 0.0% | 0 | - | ver a |
å | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1.6% | 0 | - | - |
ä | 0 | - | 0 | 0 | 0 | 0 | 0 | 2.1% | 0 | - | ver a |
ą | 0 | - | 0 | 0 | 0 | 0 | 0 | 0 | ver a | - | - |
œ | 0.018% | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | - | - |
ç | 0.085% | 0 | 0 | ver c | 0 | 0 | 1.26% | 0 | 0 | - | - |
ĉ | 0 | 0 | 0 | 0 | 0.66% | 0 | 0 | 0 | 0 | - | - |
ć | 0 | - | 0 | 0 | 0 | 0 | 0 | 0 | ver c | - | - |
è | 0.271% | 0 | 0 | 0 | 0 | ver e | 0 | 0.0% | 0 | - | ver e |
é | 1.904% | 0 | 0 | ver e | 0 | ver e | 0 | 0.0% | 0 | - | ver e |
ê | 0.225% | 0 | 0 | ver e | 0 | 0 | 0 | 0 | 0 | - | - |
ë | 0.000% | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | - | ver e |
ę | 0 | - | 0 | 0 | 0 | 0 | 0 | 0 | see e | - | - |
ĝ | 0 | 0 | 0 | 0 | 0.69% | 0 | 0 | 0 | 0 | - | - |
ğ | 0 | 0 | 0 | 0 | 0 | 0 | 1.13% | 0 | 0 | - | - |
ĥ | 0 | 0 | 0 | 0 | 0.02% | 0 | 0 | 0 | 0 | - | - |
î | 0.045% | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | - |
ì | 0 | 0 | 0 | 0 | 0 | see i | 0 | 0 | 0 | - | see i |
ï | 0.005% | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | - | ver i |
ı | 0 | 0 | 0 | 0 | 0 | 0 | 5.20%* | 0 | 0 | - | - |
ĵ | 0 | 0 | 0 | 0 | 0.12% | 0 | 0 | 0 | 0 | - | - |
ł | 0 | - | 0 | 0 | 0 | 0 | 0 | 0 | ver l | - | - |
ñ | 0 | 0 | 0.31% | 0 | 0 | 0 | 0 | 0 | 0 | - | - |
ń | 0 | - | 0 | 0 | 0 | 0 | 0 | 0 | ver n | - | - |
ò | 0 | 0 | 0 | 0 | 0 | ver o | 0 | 0 | 0 | - | ver o |
ö | 0 | - | 0 | 0 | 0 | 0 | 0.87% | 1.5% | 0 | - | ver o |
ó | 0 | - | 0 | ver o | 0 | 0 | 0 | 0 | ver o | - | ver o |
ŝ | 0 | 0 | 0 | 0 | 0.38% | 0 | 0 | 0 | 0 | - | - |
ş | 0 | 0 | 0 | 0 | 0 | 0 | 1.94% | 0 | 0 | - | - |
ś | 0 | - | 0 | 0 | 0 | 0 | 0 | 0 | ver s | - | - |
ß | 0 | 0.31% | 0 | 0 | 0 | 0 | 0 | 0 | 0 | - | - |
ù | 0.058% | 0 | 0 | 0 | 0 | ver u | 0 | 0 | 0 | - | ver u |
ŭ | 0 | 0 | 0 | 0 | 0.52% | 0 | 0 | 0 | 0 | - | - |
ü | 0 | - | 0 | 0 | 0 | 0 | 1.99% | 0 | 0 | - | ver u |
ź | 0 | - | 0 | 0 | 0 | 0 | 0 | 0 | ver z | - | - |
ż | 0 | - | 0 | 0 | 0 | 0 | 0 | 0 | 0.7% | - | - |
Com base nessas tabelas, os resultados do 'etaoin shrdlu'-equivalente para cada idioma é o seguinte:
Todas estas línguas usam um alfabeto basicamente similar de 25+ caracteres alfabéticos.
|nome1=
sem |sobrenome1=
em Authors list (ajuda)Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.