Reconhecimento de Voz

UNIVERSIDADE FEDERAL DE SANTA MARIA

CENTRO DE TECNOLOGIA

RECONHECIMENTO DE VOZ

GABRIELA JACQUES DA SILVA

LUCAS HALBERSTADT DA ROSA

SANTOS PEDROZO VIANA

Fundamentos da Informática - ELC 104

Santa Maria, maio de 1999.

INTRODUÇÃO

A primeira revolução da microinformática ocorreu com o advento da miniaturização, quando o computador pôde ser reduzido ao ponto de caber em uma mesa, ou PC (Personal Computer). A segunda revolução ocorreu com a introdução do mouse e a interface gráfica que popularizou e descomplicou o uso do computador, substituindo comandos complexos por ícones e atalhos diretos. A terceira revolução ocorrerá quando os computadores conseguirem entender a voz humana e obedecerem aos comandos verbais. Corporações do mundo digital acreditam que ele será a próxima revolução tecnológica, capaz de causar um impacto similar - se não maior - ao da Internet.

Com o reconhecimento de voz, não só os computadores passarão a ter seu uso facilitado, mas também eletrodomésticos, elevadores, bancos e automóveis.

Programas que possibilitam aos computadores reconhecer a voz humana tiveram um avanço notável nos últimos anos. Pode não estar longe o dia em que o computador será capaz de entender sua pergunta - ou pelo menos de pedir que você a repita. Isso não quer dizer que o computador compreende o que falamos. Apenas que ele já é capaz de ouvir e transcrever um texto com um grande índice de acerto. Compreender a fala transcrita envolve uma inteligência que a máquina não tem.

POR DENTRO DO RECONHECIMENTO DE VOZ

Quando o software é instalado faz-se necessário uma pré-calibração com a voz do usuário.

O programa solicita que o usuário pronuncie um conjunto de palavras de forma pausada e clara. Este conjunto de palavras será armazenado em um banco de dados do software para que o mesmo possa ter um perfil de comparação vocal.

Quando o usuário fala o software identifica o timbre das palavras pronunciadas e compara com a sua base de dados para identificar com o máximo de precisão a palavra pronunciada.

A mágica do reconhecimento de voz ocorre porque a comparação entre a palavra pronunciada e a palavra do banco de dados ocorre em tempo real.

Pelo fato dos diferentes biotipos vocálicos humanos é necessário a criação para um novo perfil para cada usuário.

Além do software de reconhecimento de voz é necessário que o computador esteja equipado com placa de som full-duplex microfone e caixa de som.

"O reconhecimento automático da voz é o processo de extração automática da informação lingüística do sinal de voz. A informação lingüística contida no sinal de voz está codificada de modo que o elevado grau de variabilidade do sinal, causada pelo ambiente e pelo locutor, praticamente não interfere na percepção da informação pelo homem. O processo de reconhecimento pode ser dividido em fases, que estão descritas abaixo:

Aquisição do sinal de voz: através de um dispositivo conversor analógico/digital, obtendo-se o sinal a ser reconhecido;

Extração de parâmetros: adquirido o sinal, o mesmo será representado, através de algum algoritmo de parametrização, por um conjunto de características que descrevem de maneira adequada as propriedades do sinal da voz;

Reconhecimento do Padrão: após a extração das características do padrão, esta fase responsabiliza-se pela identificação dos mesmos, isto é, verifica a que padrão de referência (conhecidos) o padrão de entrada (o qual se deseja reconhecer) se assemelha.]

O reconhecimento de voz, porém, é restringido por certos problemas que dificultam o processamento. As principais dificuldades relacionadas ao reconhecimento de voz podem ser resumidas nos seguintes aspectos:

A mesma palavra pronunciada várias vezes pode apresentar diferentes formas de onda devido à articulação dos órgãos do aparelho fonador;

As dificuldades na segmentação da fala: não se tem precisamente uma forma de limitação dos fonemas (menor unidade da fala), dificultando o reconhecimento de fala contínua. Esta imprecisão do limite advém da grande variação dos sinais de voz e a iteração mútua entre eles;

As variações nas características da fala: podem haver diferenças acústicas não-lineares no tempo (ritmo), em freqüência (timbre), e em amplitude (intensidade);

Com insuficiente uso do conhecimento lingüístico: a fala pode não conter toda a informação lingüística (como por exemplo: erros de Português e sotaque).

As restrições acima irão influenciar características como precisão, tipo de aplicação, custo, entre outras. Para contornar algumas restrições foram determinados certos fatores para o reconhecimento:

Dependência do Locutor: se o sistema somente reconhece a voz dos locutores para que foi treinado, tal sistema é dependente do locutor. O sistema é independente do locutor quando é capaz de reconhecer qualquer locutor que não tenha sido treinado;

Tipo de fala: pode-se reconhecer palavras isoladas ou fala contínua. No primeiro caso é necessário um período mínimo de silêncio entre as palavras pronunciadas e no segundo esta restrição não é aplicada;

Tamanho do vocabulário: o tamanho do vocabulário influencia a precisão do sistema de reconhecimento. Isto ocorre devido a possível ambigüidade das palavras (palavras semelhantes para o algoritmo classificador)."

HARDWARE NECESSÁRIO

Como vimos no item acima o reconhecimento de voz se baseia em um processo intenso e contínuo de registro e comparação em um banco de dados de padrões vocálicos.

Somente pelo fato de trabalhar intensamente com um banco de dados o hardware já tem que ser potente. Acrescente a isto um mapeamento de freqüência de voz que o hardware necessário terá que ser melhor ainda.

Atualmente um computador tipo Pentium II com generosa quantidade de memória RAM e um bom espaço livre em disco é mais do que suficiente. O computador deverá Ter ainda kit multimídia.

EMPRESAS NA ÁREA

O promissor mercado para o reconhecimento de voz está sendo disputado pelos gigantes como:

IBM

A IBM lançou nesta quarta nos Estados Unidos um notebook que contém a solução Asset ID, uma ferramenta de segurança que utiliza a voz do usuário para uma identificação mais precisa.

Introduziu, também, recentemente uma versão beta para Linux de seu programa de reconhecimento de voz ViaVoice. Essa é a primeira vez que um software comercial com essa característica é desenvolvido para o sistema operacional Linux.

A empresa anunciou que vai equipar os seus novos modelos de PCs domésticos com uma tecnologia de reconhecimento de voz que permite que os usuários controlem seus computadores por meio de comandos falados.

A corporação está gravando em estúdio 3.000 vozes de brasileiros de idades e sotaques diferentes para adaptar seu programa de reconhecimento de voz ViaVoice ao português. O programa permite que o usuário dite ordens ao computador, abrindo e fechando aplicativos, corrigindo textos, inserindo tabelas e criando atalhos, entre muitas possibilidades.

APPLE

Durante o evento de lançamento do MacOS8.6, a Apple anunciou um acordo com a Dragon Systems para levar a tecnologia de reconhecimento de voz para os computadores Macintosh.

INTEL

A Intel vai investir 30 milhões de dólares para desenvolver tecnologia de reconhecimento de voz para servidores e desktops. O acordo foi feito com a Lernout & Hauspie, uma empresa belga especializada do setor. As duas companhias devem criar juntas equipamentos como um tradutor automático de voz. A Microsoft também investe na Lernout & Hauspie para obter softwares de reconhecimento de voz.

MICROSOFT

A Microsoft investiu 45 milhões de dólares da companhia Lermout & Hauspie, da Bélgica, especializada em programas de reconhecimento de voz. O negócio faz parte dos planos da MS de fazer com que o Windows reconheça e responda a comandos falados.

A L&H já havia firmado um contrato com a Microsoft, em novembro de 96, para a utilização de sua tecnologia de reconhecimento automático de voz e de reprodução de texto como áudio nos futuros lançamentos de Bill Gates. Ainda não foi estabelecido um prazo para a finalização da primeira versão do Windows com reconhecimento do voz.

COREL

O WordPerfect Office 2000, o pacote de programas para escritório da empresa canadense Corel, terá o software de reconhecimento de voz FreeSpeech, da Philips, em português. O produto está sendo adaptado para o Brasil em Dublin, na Irlanda, pela própria Corel. Deve estar pronto em outubro ou novembro. A tecnologia do FreeSpeech, desenvolvida pela Philips, baseia-se no reconhecimento de voz contínuo e natural. Foi adotada pela Corel para seus produtos no mundo todo, com exceção dos Estados Unidos, onde a parceira da empresa é a Dragon, companhia pioneira nessa área.

SOFTWARES DE RECONHECIMENTO DE VOZ

DRAGON NATURALLY SPEAKING MOBILE

É um completo sistema de reconhecimento de voz para pessoas que viajam muito. De uma maneira fácil, rápida e natural, você grava as suas idéias em qualquer hora. Inclui um software e um gravador digital, com um microfone de alta qualidade para usar no computador. É o primeiro gravador desenvolvido especialmente para o reconhecimento de voz. O Mobile grava até 40 minutos de fala continua na sua memória e mais 80 minutos em uma memória removível de cartões. Depois é só conectá-lo ao computador que a fala será transcrita imediatamente.

DRAGON NATURALLY SPEAKING

É o primeiro programa de reconhecimento de voz continuo. O programa entende o inglês falado naturalmente. Você não precisa falar lentamente. Na primeira vez que se usa o programa, tem que configurar para o timbre de voz do usuário. Este processo leva em média 18 minutos. Depois disso, o usuário está apto a ditar o texto para máquina de uma maneira natural e as palavras ditadas irão aparecer na tela com 95% de correção. Comandos comuns nos editores de texto como itálico, sublinhado, negrito troca de fontes e muitos outros podem serem feitos por comandos de voz. Quando o computador não entende uma palavra, o usuário pode falar novamente e reforçar a escolha selecionando a palavra adequada em um menu. Quando o sistema operacional escolhido é o Windows 95 o hardware mínimo requerido é um Pentium 133 MHz com 32 Mbytes de RAM. No Windows NT o programa usa 48 Mbytes de RAM.

NOVAS TECNOLOGIAS ENVOLVENDO RECONHECIMENTO DE VOZ

Tecnologia permite acesso à Web pelo telefone

A Vocalis, empresa inglesa especializada em tecnologia de reconhecimento de voz, apresentou o SpeechHTML. O novo programa vai permitir a consumidores acessar as informações do site de uma empresa pelo telefone, sem precisar de um computador. O SpeechHTML une duas tecnologias criadas pela Vocalis, o reconhecimento de voz avançado (ASR) e a conversão de texto em voz (TTS).

Reconhecimento de voz na Telexpo&rsquo99

A Crandal e a LM Sistemas lançaram o Natural Speech Recognition, novo sistema de reconhecimento de voz contínuo, na Telexpo&rsquo99. O sistema pode ser usado nas centrais automáticas de atendimento ao cliente. Em vez de usar o teclado telefônico, o cliente "conversa" com o sistema, o que agiliza e garante a segurança da operação.

Moradores de rua dos EUA terão correio de voz

Os sem-teto nos Estados Unidos ganharão contas de correio de voz em uma operadora de telefonia celular para que as empresas, os locadores de apartamentos e assistentes sociais possam contatá-los. "Ter de oferecer o telefone de um alojamento para um possível empregador ou senhorio como forma de contato pode afetar as chances do sem-teto de melhorar suas condições de vida", afirmou a operadora US Cellular Corporation em um comunicado. Segundo a empresa, o esquema foi montado com 120 abrigos para sem-teto nos Estados Unidos. Eles estão distribuídos entre cidades como Milwaukee, Tulsa e outras de médio e pequeno porte. "Oferecer caixas de correio de voz a pessoas sem-teto é a melhor forma de ajudar uma pessoa a sair das ruas e ganhar um emprego", acredita Michael Stoops, da organização americana National Coalition for the Homeless.

A Nuance lança reconhecimento de voz em português

A empresa americana Nuance apresentou uma versão em português do seu software de reconhecimento de voz, empregado em sistemas de atendimento telefônico automático. O produto destina-se a empresas com cem ou mais posições no atendimento telefônico. Seu objetivo é permitir que o cliente solicite ou forneça informações ao computador da empresa usando a voz.

Nokia lança celular que "escuta" e transmite dados

A Nokia acaba de lançar um novo modelo de celular cujo ponto forte é a transmissão de dados e o reconhecimento de voz. Preparado para o mercado japonês, a família Nokia PDC faz a conexão com o microcomputador sem a necessidade de cabos, por utilizar a porta para dados por raios infravermelhos. O usuário pode "falar" com o aparelho, pronunciando um nome já registrado na agenda do celular. O equipamento procura o número e fica preparado para discar.

Netscape e três empresas criam o NC para carros

A Netscape, Sun Microsystems, IBM e Delco Electronics estão desenvolvendo um sistema de Network Computer (micro baseado na linguagem de programação Java) para automóveis. O "Network Veihicle" terá reconhecimento de voz, displays transparentes, sistema de posicionamento via satélite (GPS) e acesso à Internet, além de monitores para passageiros dos bancos traseiros.

Na divisão de tarefas para o desenvolvimento do sistema, a IBM ficará encarregada do software de reconhecimento de voz e do sistema de conexão sem fio, a Delco fabricará os displays de projeção de informações no vidro dianteiro, a Netscape contribuirá com softwares de navegação e a Sun dará a fundação de Java do sistema.

Yahoo! Coloca voz em serviços de mensagens instantâneas

Usuários do Yahoo! Pager já podem conversar em tempo real pela Internet. O Yahoo! está usando a tecnologia de voz para chats desenvolvida pela Mpath em seu serviço de mensagens instantâneas. A MPath lançou em fevereiro o HearMe.com, um site de bate-papo gratuito em que é possível a comunicação com outros internautas através de voz e música.

Software transfere telefonemas por comando de voz

A Nortel Networks apresentou novidades na área de tecnologia de reconhecimento de voz. O novo produto, chamado Voice-Activated Business Directory, permite ao usuário, durante uma ligação telefônica, ser transferido para outros ramais ou departamentos usando um comando de voz. Dependendo do modelo, o programa pode guardar até 4 000 nomes. Por enquanto, o Voice-Activated Business Directory trabalha em inglês, francês e espanhol.

Empresa lança software que permite &lsquofalar&rsquo com o browser

A Conversa Conversation Computing, empresa especializada em softwares de reconhecimento de voz, apresentou o Conversa Web, um programa que permite navegar pela Internet simplemente falando os comandos para o computador. Com o software, qualquer link pode ser ditado para o computador. Também há comandos de voz em substituição às operações mais comuns realizadas no browser, como Reload (recarregar), Back (página anterior) ou Forward (página seguinte). O Conversa Web funciona como uma espécie de plug-in e inicialmente é compatível apenas com o Internet Explorer 4.0. O sistema entende apenas inglês. Para voltar à página anterior no navegador, por exemplo, basta falar "go back". Links da página também podem ser falados para a máquina. Se há um link com a expressão "Send a message", basta ao usuário falar a primeira palavra, "send", para que o programa abra a página correspondente. O sistema também é capaz de abrir links escritos em outras línguas, desde que o usuário fale "com sotaque", ou seja, utilize a mesma pronúncia do inglês.

O PROJETO REVOX

O Projeto REVOX pretende conceber um sistema automático de reconhecimento de assinatura vocal para aplicações industriais, envolvendo o desenvolvimento de software e hardware específicos para o projeto de um controlador de elevadores para a empresa Elevadores SÛR. O objetivo do trabalho em andamento é desenvolver um produto que será instalado junto ao painél de controle do elevador e utilizará técnicas de Inteligência Computacional para reconhecer os usuários e gerenciar seus direitos de acesso aos andares do prédio.

A aplicação prática deste produto em elevadores consiste da realização do reconhecimento do usuário, isto é verificar se quem está falando é mesmo quem se diz ser. Este produto será instalado com o equipamento de segurança em elevadores de prédios comerciais e residenciais. No caso de elevadores residenciais, o usuário através de comandos vocais, definirá o(s) andar(es) em que deseja parar, o sistema então o identificará automaticamente em função de sua assinatura acústica e, após verificar seus direitos de acesso, comandará o elevador para que o conduza adequadamente. Já nos elevadores de prédios comerciais, vem a necessidade do reconhecimento de voz ser independente do locutor, ou seja reconhecer apenas o que está sendo dito e não a identidade.

Os sistemas independentes do locutor são os mais desejados porque tornam possível sua utilização por pessoas que não foram incorporadas no processo de treinamento do sistema. Os sistemas independentes de locutor possuem erros de 2 a 3 vezes superiores aos sistemas dependentes de interlocutor.

O resultado deste trabalho será um sistema capaz de reconhecer palavras ditas por diferentes locutores, possuindo diversos tipos de aplicações comerciais e industriais; bem como um sistema de reconhecimento de assinatura vocal, capaz de funcionar como um método confiável de reconhecimento de identidade.

CONCLUSÃO

Dentro de alguns anos, os computadores pessoais vão reconhecer o que dizemos, falar conosco e até mesmo ver quem somos e os gestos que fazemos, observando-nos por meio de minúsculas câmeras de vídeo embutidas.

As máquinas não serão inteligentes, no sentido literal da palavra, mas os softwares que vão usar serão capazes de imitar a inteligência de maneiras restritas, porém importantes.

Mas isso será amanhã e vivemos o dia de hoje. Os programas de reconhecimento de voz ainda não estão prontos para usar, apesar do fato de várias empresas estarem fazendo grandes investimentos nessa área.

Esses softwares já avançaram bastante e atingiram o ponto de serem uma bênção para pessoas portadoras de deficiências ou que não conseguem digitar rapidamente.

Os programas comerciais de reconhecimento de voz que já existem acertam uma porcentagem muito grande das palavras, mesmo quando a pessoa fala rapidamente. Para que sejam de fato úteis a uma grande gama de pessoas, os programas ainda precisam chegar muito mais perto da perfeição.

O nível de perfeição está subindo. Quando os softwares estiverem prontos para usar pelo público maior, eles irão ser incorporados aos sistemas operacionais. Mas, assim como as teclas que ativam o cursor não foram eliminadas com a chegada do mouse, a digitação tampouco será eliminada.

BIBLIOGRAFIA

NORTON, Peter. Introdução à Informática. Ed. Makron Books.

Revista Info Exame

Internet

Revista Speech Technology

PARAA SABER MAIS

Consulte os trabalhos da informática 1999. - Inf 99 - www.inf.ufsm.br.

Voltar