Descripció del projecte
El reconeixement de la veu implica generar seqüències de paraules que coincideixen amb el que es diu en enregistraments de la parla. En els últims anys, les tècniques d’aprenentatge automàtic s’utilitzen cada cop més en el reconeixement de veu principalment a causa de la disponibilitat generalitzada de dades d’entrenament i la reducció dels costos de computació a gran escala. Aquests dos factors van fer possible l’ús d’una potent tècnica d’aprenentatge automàtic (aprenentatge profund) per crear sistemes de reconeixement de veu d’extrem a extrem. Això, en comparació amb els mètodes clàssics utilitzats en aquest camp, no requereix un ampli coneixement de la fonètica.
En escoltar qualsevol tipus de discurs, els humans utilitzen coneixements previs sobre el tema (política, medicina, esports, etc.) del discurs per a una millor comprensió. En canvi, els sistemes de reconeixement de veu no solen utilitzar aquest coneixement previ. L’ús d’informació contextual per millorar un sistema de reconeixement de veu automàtic s’explora en aquesta tesi. El resultat d’aquesta tesi serà utilitzat per l’empresa Vilynx per transcriure el discurs de vídeos que, entre d’altres, contenen notícies generals, esportives i d’entreteniment.