Loading AI tools
Da Wikipédia, a enciclopédia livre
Na ciência da fala e na fonética, um formante é o máximo espectral amplo que resulta de uma ressonância acústica do trato vocal humano.[1][2] Na acústica, um formante é geralmente definido como um pico amplo ou máximo local no espectro.[3][4] Para sons harmônicos, com essa definição, a frequência do formante às vezes é considerada como a do harmônico que é mais ampliada por uma ressonância. A diferença entre essas duas definições reside no fato de os "formantes" caracterizarem os mecanismos de produção de um som ou o próprio som produzido. Na prática, a frequência de um pico espectral difere ligeiramente da frequência de ressonância associada, exceto quando, por sorte, os harmônicos estão alinhados com a frequência de ressonância. Pode-se dizer que uma sala tem formantes característicos dessa sala em particular, devido às suas ressonâncias, ou seja, à maneira como o som se reflete em suas paredes e objetos. Formantes de sala dessa natureza se reforçam ao enfatizar frequências específicas e absorver outras, como explorado, por exemplo, por Alvin Lucier em sua peça I Am Sitting in a Room.
Por limitações técnicas, alguns navegadores podem não mostrar alguns caracteres especiais deste artigo. |
Tanto na fala quanto nas salas, os formantes são características das ressonâncias do espaço. Diz-se que eles são estimulados por fontes acústicas, como a voz, e moldam (filtram) os sons das fontes, mas não são fontes em si.
Do ponto de vista acústico, a fonética tinha um sério problema com a ideia de que o comprimento efetivo do trato vocal mudava as vogais.[5] De fato, quando o comprimento do trato vocal muda, todos os ressonadores acústicos formados pelas cavidades bucais são dimensionados, assim como suas frequências de ressonância. Portanto, não estava claro como as vogais poderiam depender das frequências quando falantes com diferentes comprimentos de trato vocal, por exemplo, cantores graves e sopranos, podem produzir sons percebidos como pertencentes à mesma categoria fonética. Deveria haver alguma maneira de normalizar as informações espectrais que sustentam a identidade da vogal. Era preciso haver alguma maneira de normalizar as informações espectrais que sustentam a identidade das vogais. Hermann sugeriu uma solução para esse problema em 1894, cunhando o termo "formante". Uma vogal, segundo ele, é um fenômeno acústico especial, que depende da produção intermitente de uma característica parcial especial, ou "formante", ou "característico". A frequência do "formante" pode variar um pouco sem alterar o caráter da vogal. Para o "e longo" (ee ou iy), por exemplo, o "formante" de frequência mais baixa pode variar de 350 a 440 Hz, mesmo na mesma pessoa.[6]
Vogal
(IPA) |
Formante F1
(Hz) |
Formante F2
(Hz) |
Diferença
F2 – F1 (Hz) |
---|---|---|---|
i | 240 | 2400 | 2160 |
y | 235 | 2100 | 1865 |
e | 390 | 2300 | 1910 |
ø | 370 | 1900 | 1530 |
ɛ | 610 | 1900 | 1290 |
œ | 585 | 1710 | 1125 |
a | 850 | 1610 | 760 |
ɶ | 820 | 1530 | 710 |
ɑ | 750 | 940 | 190 |
ɒ | 700 | 760 | 60 |
ʌ | 600 | 1170 | 570 |
ɔ | 500 | 700 | 200 |
ɤ | 460 | 1310 | 850 |
o | 360 | 640 | 280 |
ɯ | 300 | 1390 | 1090 |
u | 250 | 595 | 345 |
Os formantes são componentes de frequência distintos do sinal acústico produzido pela fala, pelos instrumentos musicais[8] ou pelo canto.
As informações de que os seres humanos precisam para distinguir os sons da fala podem ser representadas de forma puramente quantitativa, especificando os picos no espectro de frequência. A maioria desses formantes é produzida pela ressonância do tubo e da câmara, mas alguns tons de apito derivam do colapso periódico das zonas de baixa pressão do efeito Venturi.[9]
O formante com a frequência mais baixa é chamado F1, o segundo F2 e o terceiro F3. A frequência fundamental ou o tom da voz às vezes é chamado de F0, mas não é um formante. Na maioria das vezes, os dois primeiros formantes, F1 e F2, são suficientes para identificar a vogal. A relação entre a qualidade da vogal percebida e as duas primeiras frequências de formantes pode ser apreciada ao ouvir "vogais artificiais" geradas pela passagem de um conjunto de cliques (para simular o conjunto de pulsos glóticos) por um par de filtros passa-banda (para simular as ressonâncias do trato vocal). As vogais anteriores têm F2 mais alto, enquanto as vogais baixas têm F1 mais alto. O arredondamento dos lábios tende a diminuir F1 e F2 nas vogais posteriores e F2 e F3 nas vogais anteriores.[10]
As consoantes nasais geralmente têm um formante adicional em torno de 2500 Hz. O [l] líquido geralmente tem um formante extra em 1500 Hz, enquanto o som do "r" inglês ([ɹ]) se distingue por um terceiro formante muito baixo (bem abaixo de 2000 Hz).
As plosivas (e, até certo ponto, as fricativas) modificam o posicionamento dos formantes nas vogais adjacentes. Os sons bilabiais (como /b/ e /p/ em "ball" ou "sap") causam um abaixamento dos formantes. Nos espectrogramas, os sons velares (/k/ e /ɡ/ em inglês) quase sempre mostram F2 e F3 se unindo em uma "pinça velar" antes da velar e se separando da mesma "pinça" quando a velar é liberada. Os sons alveolares (/t/ e /d/ do inglês) causam menos mudanças sistemáticas nos formantes das vogais vizinhas, dependendo parcialmente de qual vogal está presente. O curso de tempo dessas mudanças nas frequências dos formantes das vogais é chamado de "transições de formantes".
Na fala normal, a vibração subjacente produzida pelas pregas vocais se assemelha a uma onda em dente de serra, rica em sobretons harmônicos. Se a frequência fundamental ou (mais frequentemente) um dos sobretons for maior do que a frequência de ressonância do sistema, a ressonância será apenas fracamente estimulada e o formante normalmente transmitido por essa ressonância será praticamente perdido. Isso é mais evidente no caso de cantores de ópera soprano, que cantam em tons altos o suficiente para que suas vogais se tornem muito difíceis de distinguir.
O controle das ressonâncias é um componente essencial da técnica vocal conhecida como canto difônico, na qual o intérprete canta um tom fundamental baixo e cria ressonâncias agudas para selecionar os harmônicos superiores, dando a impressão de que vários tons estão sendo cantados ao mesmo tempo.
Os espectrogramas podem ser usados para visualizar os formantes. Nos espectrogramas, pode ser difícil distinguir os formantes dos harmônicos que ocorrem naturalmente quando alguém canta. Entretanto, é possível ouvir os formantes naturais em uma forma de vogal por meio de técnicas atonais, como em voz basal.
Os formantes, sejam eles vistos como ressonâncias acústicas do trato vocal ou como máximos locais no espectro da fala, como filtros passa-faixa, são definidos por sua frequência e por sua largura espectral (largura de banda).
Existem diferentes métodos para obter essas informações. As frequências de formantes, em sua definição acústica, podem ser estimadas a partir do espectro de frequência do som, usando um espectrograma (na figura) ou um analisador de espectro. Entretanto, para estimar as ressonâncias acústicas do trato vocal (ou seja, a definição de fala dos formantes) a partir de uma gravação de fala, pode-se usar a codificação preditiva linear. Uma abordagem intermediária consiste em extrair o envelope espectral neutralizando a frequência fundamental,[11] e só então procurar máximos locais no envelope espectral.
Os dois primeiros formantes são importantes para determinar a qualidade das vogais e, com frequência, diz-se que correspondem às dimensões aberto/fechado (ou baixo/alto) e frente/trás (tradicionalmente associadas ao formato e à posição da língua). Assim, o primeiro formante F1 tem uma frequência mais alta para uma vogal aberta ou baixa, como [a], e uma frequência mais baixa para uma vogal fechada ou alta, como [i] ou [u]; e o segundo formante F2 tem uma frequência mais alta para uma vogal frontal, como [i], e uma frequência mais baixa para uma vogal posterior, como [u].[12][13]
As vogais quase sempre têm quatro ou mais formantes distinguíveis e, às vezes, mais de seis. No entanto, os dois primeiros formantes são os mais importantes na determinação da qualidade da vogal e são frequentemente colocados um contra o outro em diagramas de vogais,[14] embora essa simplificação não consiga captar alguns aspectos da qualidade da vogal, como o arredondamento.[15]
Muitos autores abordaram o problema de encontrar um alinhamento ideal das posições das vogais nos gráficos de formantes com aquelas no quadrilátero convencional das vogais. O trabalho pioneiro de Ladefoged[16] usou a escala MEL porque essa escala correspondia mais de perto à escala auditiva de tom do que à medida acústica da frequência fundamental expressa em Hertz. Duas alternativas à escala MEL são a escala de Bark e a escala de taxa de ERB.[17] Outra estratégia amplamente adotada é traçar a diferença entre F1 e F2 em vez de F2 no eixo horizontal.
Estudos do espectro de frequência de falantes treinados e cantores clássicos, especialmente cantores do sexo masculino, indicam um formante claro em torno de 3000 Hz (entre 2800 e 3400 Hz) que está ausente na fala ou nos espectros de falantes e cantores não treinados. Acredita-se que ele esteja associado a uma ou mais das ressonâncias mais altas do trato vocal.[18][19] É esse aumento de energia em 3000 Hz que permite que os cantores sejam ouvidos e compreendidos em uma orquestra. Esse formante é ativamente desenvolvido por meio do treinamento vocal, por exemplo, por meio dos chamados exercícios de voce di strega ou "voz de bruxa"[20] e é causado por uma parte do trato vocal que age como um ressonador.[21] Na música clássica e na pedagogia vocal, esse fenômeno também é conhecido como squillo.
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.