CONTINUOUS SPEECH RECOGNITION FOR THE PORTUGUESE USING HIDDEN MARKOV MODELS

CONSELHO NACIONAL DE DESENVOLVIMENTO CIENTÍFICO E TECNOLÓGICO === Esta tese apresenta contribuições par a melhoria de sistemas de reconhecimento de voz contínua, utilizando Modelos de Markov Escondidos. A maioria dessas contribuições são específicas para aplicações que envolvem a língua portugue...

Full description

Bibliographic Details
Main Author: SIDNEY CERQUEIRA BISPO DOS SANTOS
Other Authors: ABRAHAM ALCAIM
Language:Portuguese
Published: PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIRO 1997
Online Access:http://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=8372@1
http://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=8372@2
Description
Summary:CONSELHO NACIONAL DE DESENVOLVIMENTO CIENTÍFICO E TECNOLÓGICO === Esta tese apresenta contribuições par a melhoria de sistemas de reconhecimento de voz contínua, utilizando Modelos de Markov Escondidos. A maioria dessas contribuições são específicas para aplicações que envolvem a língua portuguesa. Inicialmente, são propostos dois inventários reduzidos de unidades fonéticas a partir de características do português brasileiro. São analisadas algumas formas de inicialização e propõe-se um método rápido e eficaz de inicialização dos modelos dessas unidades. Escolhe-se um método de segmentação, a forma de concatenação dos modelos para a formação de modelos de palavras e sentenças e propõe-se um algoritmo eficiente para o treinamento. Resultado de simulações mostram que o desempenho dos dois inventários são comparáveis, qundo utilizados com gramática bigrama. O número de unidades desses inventários é bastante reduzido quando comparado ao inventário das unidades dependentes do contexto mais utilizadas tais como dofones e trifones, entre outras. Como o desempenho de recinhecimento de voz contínua dependem fortemente dos atributos de voz utilizados. examina-se diversos conjuntos de atributos e seu comportamento relativo em reconhecedores baseados na língua portuguesa, no modo independente do locutor. O conjunto de coeficiente PLP com suas primeiras e segundas derivadas apresentam o melhor desempenho. Em seguida é proposto um sistema de reconhecimento de pedidos de ligações telefônicas automáticas que utiliza conhecimentos sintáticos da língua portuguesa e conhecimento dependentes da tarefa. Esse sistema permite a decodificação nõa só de dígitos mas também de números naturais o que o torna bastante amigável ao usuário, permitindo ampla liberdade aos locutores na forma de pedir uma ligação telefônica.Com base em máquinas de estados finitos propostas para a implementação do reconhecimento, ão analisados dois algoritmos de decodificação, o Level Building e o One Pass, e propõe-se um novo algoritm, a partir de modificações no One Pass, mais eficiente na utilização das fontes de conhecimento sitática e dependente da tarefa. O sitems de RVC, em português, também é analisado utilizando- se as sílabas como unidade fonéticas. Testes são realizados no modo dependente e independente do locutor. Conclui-se sobre a viabilidade do seu emprego em reconhecimento de voz contínua baseados na língua portuguesa, em contraste com seu desempenho insatisfatório para a língua inglesa. Finalmente, é analisada a influência das palavras-função (word-functions), no desempenho de reconhecedores para o português. Embora para a língua inglesa, as palavras-unção tenham um papel de fundamental importância no desempenho do sistema de reconhecimento, conclui-se que isso não é verdade para a língua portuguesa. === This work presents several contributions for the improvement of CDHMM-based Continuous Speech Recognition (CSR) Systems. Most of these contributions are specific for Portuguese language. Two reduced sets of phonetic units, based on the characteristics of the Portuguese language, are proposed. Several initialization procedures are analized and an efficient and fast method of model initialization is proposed. Methods are described for segmentation of sentences and for concatenation of unit to form word and sentence models. An efficient training algorithm for the reduced sets of units is then proposed. Simulation results show that the performance of the two sets are comparable when bigrams are used. The number of units of these sets are significantly reduced when compared to diphones and triphones, which are widely used sets of context-dependent units. The performance of Continuous Speech Recognizers is strongly dependent on the speech features. For this reason, a comparative performance of several sets of features for the Portuguese language is carried out. The PLP coefficients with their first and second derivatives yielded the best results. A Continuous Speech Recognition System that uses syntactic knowledge of the Portuguese language is proposed. This system makes use of task dependent knowledges for automatic dial-up telephone calls. The recognition system can allows parsing of digits as well as natural numbers. This is a user friendly feature feature that permits, for the caller, a large degree of freedom in placing a call. Based on the finite state machine proposed for the implementation of the speech recognizer described in this thesis, two parsing algorithms are analized - the Level Building and the One pass. Then, a new algorithm is proposed, which is more efficient than the other two techniques. The proposed scheme is more suitable for the use of synthatic and task-dependent knowledge sources. The contribution of this thesis is concerned with the use of the syllables as phonetic units in Portuguese-based CSR systems. Dependent and Independent speaker tasks are examined. It is shown that syllables provide good results when used as phonetic units in Portuguese-based CSR systemsm, in contrast with their poor performance in English-based recognition schemes. Finally, the influence of word-functions is analized in Portuguese-based speech recognition systems. Although word- functions play a critical role in the English-basec CSR, it was found that this is not true for the Portuguese language.