|
|
| Linha 1: |
Linha 1: |
| =INTRODUÇÃO=
| |
| :DEFINIÇÃO: São softwares de reconhecimento de voz que permitem que computadores equipados com microfones interpretem a fala humana, por exemplo, para transcrição ou como método de comando por voz.<br>
| |
| : Atualmente, quando ligamos para a maior parte das grandes empresas, não é uma pessoa que costuma atender ao telefone. É uma gravação automática que atende e o instrui a pressionar botões para passar pelos diferentes menus. No entanto, muitas empresas já passaram desse estágio de ter de apertar botões, pedindo que você fale certas palavras para conseguir o que quer. O sistema que torna isso possível é um tipo de programa de reconhecimento de voz, um sistema de telefone automatizado. Esta inovação só foi possível por que alguém enxergou esta necessidade de se criar um sistema ao qual a empresa poderia atender seus clientes com mais agilidade e sem ter despesas com atendentes entre outras características.<br>
| |
| :Pessoas com deficiências que os impedem de digitar também já adotaram sistemas de reconhecimento de voz. Se um usuário não pode usar suas mãos, ou para deficientes visuais nos casos em que não é possível ou conveniente usar um teclado Braille, esses sistemas permitem que eles se expressem ditando textos e que tenham controle sobre várias das funções do computador. Alguns programas salvam os dados da fala do usuário após cada sessão, o que permite que pessoas com deterioração progressiva da fala continuem a ditar aos seus computadores.
| |
|
| |
|
| =DA FALA PARA OS DADOS=
| |
| :Para converter a fala em texto exibido na tela ou em um comando para o computador, o computador tem de realizar vários passos complexos. Ao falar, você cria vibrações no ar. O conversor analógico-digital (ADC)traduz essa onda analógica em dados digitais que o computador pode entender ao digitalizar o som, tirando medidas precisas da onda a intervalos freqüentes. O sistema filtra o som digitalizado para remover ruídos indesejados, e pode até separá-lo em diferentes faixas de freqüência (a freqüência é o comprimento de onda das ondas sonoras e nós a percebemos como diferenças na altura). Além disso, o ADC também padroniza o som, ajustando-o a um nível de volume constante. E para ter uma idéia de como pode ser complexo esse processo todo, o som também pode ter de ser alinhado temporariamente. Como as pessoas nem sempre falam na mesma velocidade, o som deve ser ajustado para corresponder à velocidade dos modelos de som já armazenados na memória do sistema.<br>
| |
| :A seguir, o sinal é dividido em segmentos menores, de até uns poucos centésimos de segundo ou até milésimos, no caso de sons consoantes plosivos, paradas de consoantes produzidas pela obstrução do fluxo de ar no trato vocal (como o "p" ou o "t"). O programa, então, contrapõe esses segmentos aos fonemas conhecidos do idioma desejado. Um fonema é o menor elemento de um idioma, uma representação dos sons que criamos e juntamos para formar expressões com sentido. Há 34 fonemas na língua portuguesa. Outras línguas, por sua vez, podem ter um número maior ou menor.<br>
| |
| :O próximo passo parece simples, mas na verdade é o mais difícil de ser feito e é o principal foco da maioria das pesquisas feitas sobre o reconhecimento de voz: o programa examina os fonemas dentro do contexto de outros fonemas ao redor deles. Ele analisa o resultado por um modelo estatístico complexo e os compara com uma grande coleção de palavras, frases e sentenças conhecidas. Por fim, o programa determina o que o usuário provavelmente estava dizendo e o transforma em texto ou comandos para o computador.<br>
| |
| =BASICAMENTE COMO FUNCIONA O RECONHECIMENTO DE VOZ ?=
| |
| :O reconhecimento de voz praticamente se divide em quatro etapas :
| |
| <br>1- A placa de som do PC converte as ondas analógicas faladas no microfone em um formato digital.
| |
| <br>2- O modelo acústico do software quebra as palavras em três fonemas que são: ST, UH e FF.
| |
| <br>3- O modelo de idioma do software compara os fonemas às palavras existentes em seu dicionário.
| |
| <br>4- O software decide qual palavra foi dita e exibe o resultado mais parecido na tela.
| |
|
| |
| =EVOLUÇÃO DO RECONHECIMENTO DE VOZ=
| |
| :Os primeiros sistemas de reconhecimento de fala tentavam aplicar um conjunto de regras gramaticais e sintáticas à fala. Se as palavras ditas caíssem dentro de um certo conjunto de regras, o programa poderia determinar quais eram aquelas palavras. No entanto, a linguagem humana tem inúmeras exceções a suas regras, mesmo quando falada de maneira consistente.<br>
| |
| :Sotaques, dialetos e regionalismos podem alterar bastante a maneira como certas palavras ou frases são ditas. Imagine alguém de Minas Gerais dizendo a palavra "menininho". Ele ou ela não pronuncia o "inho", e a palavra acaba saindo como "meninim". Ou então pense na frase, "está tudo bem com você?" A maioria das pessoas não diz as palavras por completo, o que pode fazer a frase se tornar "tá tudo bem cocê?" Várias palavras são ditas sem que haja uma interrupção perceptível entre elas, assim como "cocê". Como não conseguiam lidar com essas variações, os sistemas baseados em regras não tiveram muito sucesso. O que também explica o motivo pelo qual os primeiros sistemas não conseguiram lidar com o discurso contínuo. Era preciso falar cada palavra separadamente, com uma pequena pausa entre elas.<br>
| |
| :Já os softwares de reconhecimento de voz atuais usam sistemas de modelo estatísticos poderosos e complicados. Eles usam funções de probabilidade e matemática para determinar o resultado mais provável. De acordo com John Garofolo, líder do grupo de fala no Laboratório de Tecnologia da Informação do National Institute of Standards and Technology, os dois modelos que dominam o campo hoje em dia são o Modelo Oculto de Markov e as redes neurais. Ambos os métodos envolvem funções matemáticas complexas, mas essencialmente usam as informações conhecidas do sistema para descobrir as informações escondidas dele.<br>
| |
| =PRINCIPAIS FALHAS E PONTOS FRACOS DO SOFTWARE=
| |
| :Nenhum sistema de reconhecimento de voz é 100% perfeito, vários fatores podem reduzir a precisão. Alguns desses são fatores que continuam a melhorar conforme a tecnologia se desenvolve; já outros podem ser reduzidos e, talvez, até completamente corrigidos pelo usuário.<br>
| |
| :O programa precisa "escutar" as palavras faladas de modo que as diferencie bem, mas qualquer ruído extra que seja introduzido junto ao som irá interferir nisso. O ruído pode vir de várias fontes diferentes, incluindo o alto ruído de fundo de um escritório. Recomenda-se que os usuários trabalhem em uma sala silenciosa e com um microfone de qualidade posicionado bem próximo de suas bocas. Placas de som, que fornecem a entrada pela qual o microfone envia o sinal para o computador, de baixa qualidade geralmente não têm proteção o bastante contra os sinais elétricos produzidos por outros componentes do computador, e isso pode introduzir zumbidos ou assovios no sinal.<br>
| |
| :Os sistemas atuais têm dificuldade de separar falas simultâneas de usuários múltiplos, segundo John Garofolo um dos grandes pesquisadores dessa tecnologia, “Caso você tente usar a tecnologia de reconhecimento em conversas ou reuniões, onde as pessoas frequentemente se interrompem ou atropelam a fala umas das outras, você provavelmente vai conseguir resultados extremamente fracos".<br>
| |
| :Têm também o problema de termos palavras Homônimas que são duas palavras que são soletradas de maneiras diferentes e têm significados diferentes, mas têm o mesmo som. "Sessão" e "cessão", e "conserto" e "concerto" são alguns exemplos. Não há como o programa de reconhecimento de voz diferenciar essas palavras baseando-se somente no som. No entanto, o treino extensivo de sistemas e modelos estatísticos que levam em consideração o contexto da palavra já aumentou bastante seu desempenho.<br>
| |
| =CONCLUSÃO=
| |
| :O mundo vem vivenciando grandes evoluções tecnológicas, varias tecnologias que nem pensávamos que pudessem existir foram criadas, com isso se tem uma grande necessidade em corrigir possíveis erros e a melhorar cada vez mas o produto. Vemos isso claramente quando observamos as inúmeras versões de celulares, tabletes, smartphones etc., onde os fabricantes melhoram algum erro do sistema operacional ou mesmo para ter um programa mais ágil e eficaz na nova versão.<br>
| |
| :Vários dos softwares criados foram para solucionar um problema que alguém observou e percebeu a necessidade de corrigi-lo como, por exemplo, algum desses citados acima tal como o problema das palavras homônimas, ou de torna-lo mais acessível à população.<br>
| |
| =BIBLIOGRAFIA=
| |
| • http://office.microsoft.com/pt-br/excel-help/sobre-o-reconhecimento-de-voz-HP003084099.aspx<br>
| |
| • Jelinke, Frederick. "Métodos estatísticos para reconhecimento de voz." The MIT Press, 16 de janeiro de 1998. ISBN 0262100665.<br>
| |
| • http://pt.scribd.com/doc/54916304/TCC-Reconhecimento-Automatico-de-Fala-por-Computador<br>
| |
| • http://nadanaoexiste.blogspot.com.br/2011/09/software-de-reconhecimento-de-fala-em.html<br>
| |