Identificación de locutor usando codebooks de coeficientes cepstrales en las frecuencias de Mel y modelos ocultos de Markov
Fecha
2016Autor
Auccapuma Gamarra, Jhon Dennis
Mamani Condori, Errol Wilderd
Metadatos
Mostrar el registro completo del ítemResumen
El habla es un tipo de señal complicada producto del resultado de una serie de trans¬formaciones ocurridas en diferentes niveles: semántica, lingüística y acústica. Estas trans¬formaciones conducen a diferencias en las características de un individuo ampliamente estudiadas por la Biometría. La identificación de locutor (identificar quién es la persona que emitió la voz) en síntesis, es un análisis detallado de las características del habla de cada individuo basado en puntuaciones. En este contexto este proyecto se centró en la identificación de locutor mediante Coeficientes Cepstrales en las Frecuencias Mel o Mel Frequency Cepstral Cofficients (MPCC) y Modelos Ocultos de Markov o Hidden Markov Model (HMM). Iniciando el procesamiento de voz, para obtener las características más importantes de un individuo se utilizó Coeficientes Cepstrales en las Frecuencias Mel , debido a que en la actualidad otorgan los mejores resultarlos en el análisis Cepstral según el estado de arte, posteriormente; se hiso uso de la cuantificación vectorial o Vector quan- tization (VQ) que por medio del algoritmo de clasificación K-means ,divide el conjunto de vectores característicos en un número determinado de vectores representativos, los cuales mejoran sustancialmente el tiempo de procesamiento. Para el modelamiento de los de vectores representativos se hiso uso de los Modelos Ocultos de Markov; los HMMs son en¬trenados para generar el modelo oculto del locutor el cual estará formado por la secuencia de observaciones (símbolos de observación) y la secuencia de estados, para luego encontrar la secuencia de estados con mayor probabilidad, la identidad de un locutor se determi¬na mediante el modelo que obtenga la máxima probabilidad (puntuación) determinado por el algoritmo de Viterbi. Adicionalmente se estimaron los parámetros de los módulos de pre procesamiento, extracción de características, pos procesamiento v el cuantificador vectorial basado en codebooks; para sugerir el tamaño de codebook más adecuado y los parámetros con los que se obtenga buenos resultados en la identificación de un locutor ;para cada módulo se describió la teoría y la implementación del código fuente en Java. Finalmente, nuestros resultados experimentales muestran los parámetros con los que se obtienen buenos resultados teniendo un 90% de aceptación para un grupo reducido y cerrado de 5 personas en condiciones reales (con ruido de fondo), con una tendencia de decrecimiento a medida que aumenta el número de población y una mayor efectividad en condiciones ideales (ambiente cerrado y sin ruido de fondo).
Colecciones
- Tesis [91]