Microsoft produziu reconhecimento de voz com taxa de acerto de humanos
Quando em 1968 Arthur Clarke previu que HAL seria construÃdo em 1992
(no filme) ou 1997 (no livro), muita gente achou que ele estava sendo
pessimista. Inteligência artificial era um problema de pura força bruta.
Décadas depois não estamos mais próximos de emular uma consciência em
um computador do que estávamos quando Alan Turing usava fraldas.
Essa é a IA Forte. Já o campo da Inteligência Artificial Fraca, que
em vez de consciência resolve problemas especÃficos, esse tem avançado a
ponto de assustar autores de ficção cientÃfica.
Explicando de forma bem simples: na IA Fraca você treina a rede
neural para identificar referências a Moby Dick em obras de ficção. Na
IA Forte o computador lê Moby Dick e entendeu que a baleia é uma
metáfora para Deus. Um pensa que pensa, o outro pensa.
A IA Fraca é o que torna possÃvel o piloto automático
dos Teslas, seu GPS, Siri e Cortana, sistemas de reconhecimento facial e
a busca por imagens do Google. Assim como um bom estagiário, ela não
tem a menor idéia do que está fazendo, mas aprendeu aquela única tarefa e
a executa com perfeição.
Uma dessas tarefas perfeitas para a IA Fraca é reconhecimento de voz,
algo que algumas décadas atrás era restrita a filmes de ficção e
modelos primitivos em laboratório. Quando chegou ao grande público,
exigia horas de tedioso treinamento. Aà os cientistas perceberam que não
deveriam treinar a IA para cada usuário. Se nós não temos que aprender a
ouvir cada pessoa com que falamos, não deveria ser assim para o
computador.
Como cada grupo de pesquisa tinha os próprios padrões era complicado
comparar a eficácia dos algoritmos. Por isso no final de Década de 90
o National Institute of Standards and Technology (NIST) lançou um pacote
de conversas em inglês, espanhol e mandarim, em formato e qualidade de
transmissões telefônicas. Os softwares deveriam se basear nesses
arquivos, assim teriam um padrão comum de comparação
.
A equipe: Wayne Xiong, Geoffrey Zweig, Xuedong Huang, Dong Yu, Frank Seide, Mike Seltzer, Jasha Droppo e Andreas Stolcke
Pois bem: segunda-feira (17/10) o Grupo de Pesquisa em Inteligência Artificial da Microsoft Research publicou um paper demonstrando que não só conseguiram uma taxa de erro de 6,3% como um mês depois baixaram esse valor para 5,9%.
Isso significa que transcrevendo uma conversa telefônica, o software
erra 6 palavras em cada 100, isso inclui pigarros, aqueles eeeeeeee,
pausas e letras engolidas. Isso é impressionante, é histórico por um
simples motivo:
5,9% é a taxa de erro de profissionais humanos especializados em transcrição de gravações telefônicas.
O software erra tanto quanto humanos profissionais e bem menos que leigos realizando a mesma tarefa.
Aplicações
A parte mais difÃcil já foi feita, agora é aprimorar filtros para que
a qualidade do reconhecimento não seja degradada por ruÃdos do
dia-a-dia e teremos sistemas como Cortana funcionando em modo turbo.
Transcrições automáticas de vÃdeos, por exemplo, serão
lugar-comum. Pense em quantos discursos, aulas e letras do Djavan
existem em formato de áudio que poderão ser transformados em texto. E
quer mais precisão? Rode duas vezes alterando alguns parâmetros, bingo.
Você tem como comparar os resultados e identificar os pontos exatos dos
5,9%.
Fonte: meiobit.com