UNIVERSIDADE FEDERAL DE SANTA MARIA
CENTRO DE TECNOLOGIA
RECONHECIMENTO DE VOZ
GABRIELA JACQUES DA SILVA
LUCAS HALBERSTADT DA ROSA
SANTOS PEDROZO VIANA
Fundamentos da Informática - ELC
104
Santa Maria, maio de 1999.
INTRODUÇÃO
A primeira revolução da microinformática
ocorreu com o advento da miniaturização, quando o
computador pôde ser reduzido ao ponto de caber em
uma mesa, ou PC (Personal Computer). A segunda revolução
ocorreu com a introdução do mouse e a interface gráfica
que popularizou e descomplicou o uso do computador,
substituindo comandos complexos por ícones e atalhos
diretos. A terceira revolução ocorrerá quando os
computadores conseguirem entender a voz humana e
obedecerem aos comandos verbais. Corporações do
mundo digital acreditam que ele será a próxima
revolução tecnológica, capaz de causar um impacto
similar - se não maior - ao da Internet.
Com o reconhecimento de voz, não só os
computadores passarão a ter seu uso facilitado, mas
também eletrodomésticos, elevadores, bancos e automóveis.
Programas que possibilitam aos computadores
reconhecer a voz humana tiveram um avanço notável
nos últimos anos. Pode não estar longe o dia em que
o computador será capaz de entender sua pergunta -
ou pelo menos de pedir que você a repita. Isso não
quer dizer que o computador compreende o que falamos.
Apenas que ele já é capaz de ouvir e transcrever um
texto com um grande índice de acerto. Compreender a
fala transcrita envolve uma inteligência que a máquina
não tem.
POR DENTRO DO RECONHECIMENTO DE
VOZ
Quando o software é instalado faz-se necessário
uma pré-calibração com a voz do usuário.
O programa solicita que o usuário pronuncie um
conjunto de palavras de forma pausada e clara. Este
conjunto de palavras será armazenado em um banco de
dados do software para que o mesmo possa ter um
perfil de comparação vocal.
Quando o usuário fala o software identifica o
timbre das palavras pronunciadas e compara com a sua
base de dados para identificar com o máximo de
precisão a palavra pronunciada.
A mágica do reconhecimento de voz ocorre porque a
comparação entre a palavra pronunciada e a palavra
do banco de dados ocorre em tempo real.
Pelo fato dos diferentes biotipos vocálicos
humanos é necessário a criação para um novo
perfil para cada usuário.
Além do software de reconhecimento de voz é
necessário que o computador esteja equipado com
placa de som full-duplex microfone e caixa de som.
"O reconhecimento automático da voz é o
processo de extração automática da informação
lingüística do sinal de voz. A informação lingüística
contida no sinal de voz está codificada de modo que
o elevado grau de variabilidade do sinal, causada
pelo ambiente e pelo locutor, praticamente não
interfere na percepção da informação pelo homem.
O processo de reconhecimento pode ser dividido em
fases, que estão descritas abaixo:
- Aquisição do sinal de voz: através de um
dispositivo conversor analógico/digital,
obtendo-se o sinal a ser reconhecido;
- Extração de parâmetros: adquirido o sinal,
o mesmo será representado, através de algum
algoritmo de parametrização, por um
conjunto de características que descrevem de
maneira adequada as propriedades do sinal da
voz;
- Reconhecimento do Padrão: após a extração
das características do padrão, esta fase
responsabiliza-se pela identificação dos
mesmos, isto é, verifica a que padrão de
referência (conhecidos) o padrão de entrada
(o qual se deseja reconhecer) se assemelha.]
O reconhecimento de voz, porém, é restringido
por certos problemas que dificultam o processamento.
As principais dificuldades relacionadas ao
reconhecimento de voz podem ser resumidas nos
seguintes aspectos:
- A mesma palavra pronunciada várias vezes
pode apresentar diferentes formas de onda
devido à articulação dos órgãos do
aparelho fonador;
- As dificuldades na segmentação da fala: não
se tem precisamente uma forma de limitação
dos fonemas (menor unidade da fala),
dificultando o reconhecimento de fala contínua.
Esta imprecisão do limite advém da grande
variação dos sinais de voz e a iteração mútua
entre eles;
- As variações nas características da fala:
podem haver diferenças acústicas não-lineares
no tempo (ritmo), em freqüência (timbre), e
em amplitude (intensidade);
- Com insuficiente uso do conhecimento lingüístico:
a fala pode não conter toda a informação
lingüística (como por exemplo: erros de
Português e sotaque).
As restrições acima irão influenciar características
como precisão, tipo de aplicação, custo, entre
outras. Para contornar algumas restrições foram
determinados certos fatores para o reconhecimento:
- Dependência do Locutor: se o sistema somente
reconhece a voz dos locutores para que foi
treinado, tal sistema é dependente do
locutor. O sistema é independente do locutor
quando é capaz de reconhecer qualquer
locutor que não tenha sido treinado;
- Tipo de fala: pode-se reconhecer palavras
isoladas ou fala contínua. No primeiro caso
é necessário um período mínimo de silêncio
entre as palavras pronunciadas e no segundo
esta restrição não é aplicada;
- Tamanho do vocabulário: o tamanho do vocabulário
influencia a precisão do sistema de
reconhecimento. Isto ocorre devido a possível
ambigüidade das palavras (palavras
semelhantes para o algoritmo classificador)."
HARDWARE NECESSÁRIO
Como vimos no item acima o reconhecimento de voz
se baseia em um processo intenso e contínuo de
registro e comparação em um banco de dados de padrões
vocálicos.
Somente pelo fato de trabalhar intensamente com um
banco de dados o hardware já tem que ser potente.
Acrescente a isto um mapeamento de freqüência de
voz que o hardware necessário terá que ser melhor
ainda.
Atualmente um computador tipo Pentium II com
generosa quantidade de memória RAM e um bom espaço
livre em disco é mais do que suficiente. O
computador deverá Ter ainda kit multimídia.
EMPRESAS NA ÁREA
O promissor mercado para o reconhecimento de voz
está sendo disputado pelos gigantes como:
IBM
A IBM lançou nesta quarta nos Estados Unidos um
notebook que contém a solução Asset ID, uma
ferramenta de segurança que utiliza a voz do usuário
para uma identificação mais precisa.
Introduziu, também, recentemente uma versão beta
para Linux de seu programa de reconhecimento de voz
ViaVoice. Essa é a primeira vez que um software
comercial com essa característica é desenvolvido
para o sistema operacional Linux.
A empresa anunciou que vai equipar os seus novos
modelos de PCs domésticos com uma tecnologia de
reconhecimento de voz que permite que os usuários
controlem seus computadores por meio de comandos
falados.
A corporação está gravando em estúdio 3.000
vozes de brasileiros de idades e sotaques diferentes
para adaptar seu programa de reconhecimento de voz
ViaVoice ao português. O programa permite que o usuário
dite ordens ao computador, abrindo e fechando
aplicativos, corrigindo textos, inserindo tabelas e
criando atalhos, entre muitas possibilidades.
APPLE
Durante o evento de lançamento do MacOS8.6, a
Apple anunciou um acordo com a Dragon Systems para
levar a tecnologia de reconhecimento de voz para os
computadores Macintosh.
INTEL
A Intel vai investir 30 milhões de dólares para
desenvolver tecnologia de reconhecimento de voz para
servidores e desktops. O acordo foi feito com a
Lernout & Hauspie, uma empresa belga
especializada do setor. As duas companhias devem
criar juntas equipamentos como um tradutor automático
de voz. A Microsoft também investe na Lernout &
Hauspie para obter softwares de reconhecimento de voz.
MICROSOFT
A Microsoft investiu 45 milhões de dólares da
companhia Lermout & Hauspie, da Bélgica,
especializada em programas de reconhecimento de voz.
O negócio faz parte dos planos da MS de fazer com
que o Windows reconheça e responda a comandos
falados.
A L&H já havia firmado um contrato com a
Microsoft, em novembro de 96, para a utilização de
sua tecnologia de reconhecimento automático de voz e
de reprodução de texto como áudio nos futuros lançamentos
de Bill Gates. Ainda não foi estabelecido um prazo
para a finalização da primeira versão do Windows
com reconhecimento do voz.
COREL
O WordPerfect Office 2000, o pacote de programas
para escritório da empresa canadense Corel, terá o
software de reconhecimento de voz FreeSpeech, da
Philips, em português. O produto está sendo
adaptado para o Brasil em Dublin, na Irlanda, pela própria
Corel. Deve estar pronto em outubro ou novembro. A
tecnologia do FreeSpeech, desenvolvida pela Philips,
baseia-se no reconhecimento de voz contínuo e
natural. Foi adotada pela Corel para seus produtos no
mundo todo, com exceção dos Estados Unidos, onde a
parceira da empresa é a Dragon, companhia pioneira
nessa área.
SOFTWARES DE
RECONHECIMENTO DE VOZ
DRAGON NATURALLY SPEAKING MOBILE
É um completo sistema de reconhecimento de voz
para pessoas que viajam muito. De uma maneira fácil,
rápida e natural, você grava as suas idéias em
qualquer hora. Inclui um software e um gravador
digital, com um microfone de alta qualidade para usar
no computador. É o primeiro gravador desenvolvido
especialmente para o reconhecimento de voz. O Mobile
grava até 40 minutos de fala continua na sua memória
e mais 80 minutos em uma memória removível de cartões.
Depois é só conectá-lo ao computador que a fala
será transcrita imediatamente.
DRAGON NATURALLY SPEAKING
É o primeiro programa de reconhecimento de voz
continuo. O programa entende o inglês falado
naturalmente. Você não precisa falar lentamente. Na
primeira vez que se usa o programa, tem que
configurar para o timbre de voz do usuário. Este
processo leva em média 18 minutos. Depois disso, o
usuário está apto a ditar o texto para máquina de
uma maneira natural e as palavras ditadas irão
aparecer na tela com 95% de correção. Comandos
comuns nos editores de texto como itálico,
sublinhado, negrito troca de fontes e muitos outros
podem serem feitos por comandos de voz. Quando o
computador não entende uma palavra, o usuário pode
falar novamente e reforçar a escolha selecionando a
palavra adequada em um menu. Quando o sistema
operacional escolhido é o Windows 95 o hardware mínimo
requerido é um Pentium 133 MHz com 32 Mbytes de RAM.
No Windows NT o programa usa 48 Mbytes de RAM.
NOVAS TECNOLOGIAS ENVOLVENDO
RECONHECIMENTO DE VOZ
Tecnologia permite acesso à Web pelo telefone
A Vocalis, empresa inglesa especializada em
tecnologia de reconhecimento de voz, apresentou o
SpeechHTML. O novo programa vai permitir a
consumidores acessar as informações do site de uma
empresa pelo telefone, sem precisar de um computador.
O SpeechHTML une duas tecnologias criadas pela
Vocalis, o reconhecimento de voz avançado (ASR) e a
conversão de texto em voz (TTS).
Reconhecimento de voz na Telexpo&rsquo99
A Crandal e a LM Sistemas lançaram o Natural
Speech Recognition, novo sistema de reconhecimento de
voz contínuo, na Telexpo&rsquo99. O sistema pode
ser usado nas centrais automáticas de atendimento ao
cliente. Em vez de usar o teclado telefônico, o
cliente "conversa" com o sistema, o que
agiliza e garante a segurança da operação.
Moradores de rua dos EUA terão correio de voz
Os sem-teto nos Estados Unidos ganharão contas de
correio de voz em uma operadora de telefonia celular
para que as empresas, os locadores de apartamentos e
assistentes sociais possam contatá-los. "Ter de
oferecer o telefone de um alojamento para um possível
empregador ou senhorio como forma de contato pode
afetar as chances do sem-teto de melhorar suas condições
de vida", afirmou a operadora US Cellular
Corporation em um comunicado. Segundo a empresa, o
esquema foi montado com 120 abrigos para sem-teto nos
Estados Unidos. Eles estão distribuídos entre
cidades como Milwaukee, Tulsa e outras de médio e
pequeno porte. "Oferecer caixas de correio de
voz a pessoas sem-teto é a melhor forma de ajudar
uma pessoa a sair das ruas e ganhar um emprego",
acredita Michael Stoops, da organização americana
National Coalition for the Homeless.
A Nuance lança reconhecimento de voz em
português
A empresa americana Nuance apresentou uma versão
em português do seu software de reconhecimento de
voz, empregado em sistemas de atendimento telefônico
automático. O produto destina-se a empresas com cem
ou mais posições no atendimento telefônico. Seu
objetivo é permitir que o cliente solicite ou forneça
informações ao computador da empresa usando a voz.
Nokia lança celular que "escuta" e
transmite dados
A Nokia acaba de lançar um novo modelo de celular
cujo ponto forte é a transmissão de dados e o
reconhecimento de voz. Preparado para o mercado japonês,
a família Nokia PDC faz a conexão com o
microcomputador sem a necessidade de cabos, por
utilizar a porta para dados por raios infravermelhos.
O usuário pode "falar" com o aparelho,
pronunciando um nome já registrado na agenda do
celular. O equipamento procura o número e fica
preparado para discar.
Netscape e três empresas criam o NC para
carros
A Netscape, Sun Microsystems, IBM e Delco
Electronics estão desenvolvendo um sistema de
Network Computer (micro baseado na linguagem de
programação Java) para automóveis. O "Network
Veihicle" terá reconhecimento de voz, displays
transparentes, sistema de posicionamento via satélite
(GPS) e acesso à Internet, além de monitores para
passageiros dos bancos traseiros.
Na divisão de tarefas para o desenvolvimento do
sistema, a IBM ficará encarregada do software de
reconhecimento de voz e do sistema de conexão sem
fio, a Delco fabricará os displays de projeção de
informações no vidro dianteiro, a Netscape
contribuirá com softwares de navegação e a Sun dará
a fundação de Java do sistema.
Yahoo! Coloca voz em serviços de mensagens
instantâneas
Usuários do Yahoo! Pager já podem conversar em
tempo real pela Internet. O Yahoo! está usando a
tecnologia de voz para chats desenvolvida pela Mpath
em seu serviço de mensagens instantâneas. A MPath
lançou em fevereiro o HearMe.com, um site de bate-papo
gratuito em que é possível a comunicação com
outros internautas através de voz e música.
Software transfere telefonemas por comando de
voz
A Nortel Networks apresentou novidades na área de
tecnologia de reconhecimento de voz. O novo produto,
chamado Voice-Activated Business Directory, permite
ao usuário, durante uma ligação telefônica, ser
transferido para outros ramais ou departamentos
usando um comando de voz. Dependendo do modelo, o
programa pode guardar até 4 000 nomes. Por enquanto,
o Voice-Activated Business Directory trabalha em inglês,
francês e espanhol.
Empresa lança software que permite &lsquofalar&rsquo
com o browser
A Conversa Conversation Computing, empresa
especializada em softwares de reconhecimento de voz,
apresentou o Conversa Web, um programa que permite
navegar pela Internet simplemente falando os comandos
para o computador. Com o software, qualquer link pode
ser ditado para o computador. Também há comandos de
voz em substituição às operações mais comuns
realizadas no browser, como Reload (recarregar), Back
(página anterior) ou Forward (página seguinte). O
Conversa Web funciona como uma espécie de plug-in e
inicialmente é compatível apenas com o Internet
Explorer 4.0. O sistema entende apenas inglês. Para
voltar à página anterior no navegador, por exemplo,
basta falar "go back". Links da página
também podem ser falados para a máquina. Se há um
link com a expressão "Send a message",
basta ao usuário falar a primeira palavra, "send",
para que o programa abra a página correspondente. O
sistema também é capaz de abrir links escritos em
outras línguas, desde que o usuário fale "com
sotaque", ou seja, utilize a mesma pronúncia do
inglês.
O PROJETO REVOX
O Projeto REVOX pretende conceber um sistema automático
de reconhecimento de assinatura vocal para aplicações
industriais, envolvendo o desenvolvimento de software
e hardware específicos para o projeto de um
controlador de elevadores para a empresa Elevadores SÛR.
O objetivo do trabalho em andamento é desenvolver um
produto que será instalado junto ao painél de
controle do elevador e utilizará técnicas de
Inteligência Computacional para reconhecer os usuários
e gerenciar seus direitos de acesso aos andares do prédio.
A aplicação prática deste produto em elevadores
consiste da realização do reconhecimento do usuário,
isto é verificar se quem está falando é mesmo quem
se diz ser. Este produto será instalado com o
equipamento de segurança em elevadores de prédios
comerciais e residenciais. No caso de elevadores
residenciais, o usuário através de comandos vocais,
definirá o(s) andar(es) em que deseja parar, o
sistema então o identificará automaticamente em função
de sua assinatura acústica e, após verificar seus
direitos de acesso, comandará o elevador para que o
conduza adequadamente. Já nos elevadores de prédios
comerciais, vem a necessidade do reconhecimento de
voz ser independente do locutor, ou seja reconhecer
apenas o que está sendo dito e não a identidade.
Os sistemas independentes do locutor são os mais
desejados porque tornam possível sua utilização
por pessoas que não foram incorporadas no processo
de treinamento do sistema. Os sistemas independentes
de locutor possuem erros de 2 a 3 vezes superiores
aos sistemas dependentes de interlocutor.
O resultado deste trabalho será um sistema capaz
de reconhecer palavras ditas por diferentes locutores,
possuindo diversos tipos de aplicações comerciais e
industriais; bem como um sistema de reconhecimento de
assinatura vocal, capaz de funcionar como um método
confiável de reconhecimento de identidade.
CONCLUSÃO
Dentro de alguns anos, os computadores pessoais vão
reconhecer o que dizemos, falar conosco e até mesmo
ver quem somos e os gestos que fazemos, observando-nos
por meio de minúsculas câmeras de vídeo embutidas.
As máquinas não serão inteligentes, no sentido
literal da palavra, mas os softwares que vão usar
serão capazes de imitar a inteligência de maneiras
restritas, porém importantes.
Mas isso será amanhã e vivemos o dia de hoje. Os
programas de reconhecimento de voz ainda não estão
prontos para usar, apesar do fato de várias empresas
estarem fazendo grandes investimentos nessa área.
Esses softwares já avançaram bastante e
atingiram o ponto de serem uma bênção para pessoas
portadoras de deficiências ou que não conseguem
digitar rapidamente.
Os programas comerciais de reconhecimento de voz
que já existem acertam uma porcentagem muito grande
das palavras, mesmo quando a pessoa fala rapidamente.
Para que sejam de fato úteis a uma grande gama de
pessoas, os programas ainda precisam chegar muito
mais perto da perfeição.
O nível de perfeição está subindo. Quando os
softwares estiverem prontos para usar pelo público
maior, eles irão ser incorporados aos sistemas
operacionais. Mas, assim como as teclas que ativam o
cursor não foram eliminadas com a chegada do mouse,
a digitação tampouco será eliminada.
BIBLIOGRAFIA
NORTON, Peter. Introdução à Informática.
Ed. Makron Books.
Revista Info Exame
Internet
Revista Speech Technology
PARAA SABER MAIS
Consulte os trabalhos da informática
1999. - Inf 99 - www.inf.ufsm.br.
Voltar