WAV: The WAves (and wrinkles) of our Voice

Investigadora principal: Eugenia San Segundo Fernández

Duración: 2025-2029

Convocatoria: Proyectos de Generación de Conocimiento, financiado por MICIU/AEI/10.13039/501100011033 y por FEDER/UE

Referencia: PID2024-161495OB-I00

Presentación

Los avances tecnológicos en la síntesis de voz mediante redes neuronales profundas plantean importantes desafíos en el ámbito forense y de la seguridad ciudadana. Los deepfakes de audio son réplicas casi indistinguibles de la voz humana que pueden emplearse con fines perniciosos, generando graves daños tanto a nivel colectivo (p. ej., desinformación o manipulación de campañas electorales) como individual (p. ej., difamación o estafas).

En este contexto, resulta imprescindible desarrollar detectores de deepfakes que sean robustos en distintas condiciones y generalicen adecuadamente entre idiomas. Sin embargo, este objetivo aún está lejos de alcanzarse, ya que la mayoría de lenguas se encuentran infrarrepresentadas o ausentes en las bases de datos actualmente utilizadas para el entrenamiento y desarrollo de detectores, siendo el inglés la lengua predominante. Esto afecta directamente al rendimiento de los sistemas de detección en lenguas distintas del inglés.

A partir de esta carencia nace el objetivo general del proyecto: crear una base de datos de deepfakes de audio en lengua española destinada al entrenamiento de detectores automáticos con el fin de mejorar la resiliencia de los sistemas de ciberseguridad en el ámbito del habla hispana.

A su vez, este objetivo general se concreta en los siguientes objetivos específicos:

- Confeccionar un corpus de voces genuinas y sintéticas en español que sea amplio, diverso y realista. Esto implica seleccionar una muestra que cubra una amplia diversidad demográfica y que incluya voces no normofónicas (voces disfónicas y disprosódicas). De esta manera, se pretende capturar las imperfecciones de la voz connaturales en cualquier individuo (the wrinkles of our voice).
- Comprobar si la clonación de voces disfónicas y disprosódicas puede alcanzar niveles adecuados de inteligibilidad, naturalidad y aceptabilidad.
- Identificar las características prosódicas presentes en voces auténticas que no pueden ser replicadas por los sistemas de síntesis y que, por consiguiente, pueden funcionar como rasgos discriminatorios.
- Estudiar la aceptabilidad y naturalidad de las clonaciones de voces en inglés con acento español (inglés como L2) para explorar las posibles aplicaciones de la síntesis de voz en la enseñanza-aprendizaje de idiomas.

Participantes

El proyecto WAV está integrado por los siguientes investigadores:

Eugenia San Segundo Fernández (IP)

Científica titular del Instituto del Lengua, Literatura y Antropología (ILLA-CSIC) y responsable científica del Laboratorio de Fonética. Especializada en fonética experimental y aplicada, fonética forense, fonética clínica y deepfakes.

ORCID Web CSIC LinkedIn ResearchGate GoogleScholar

Alfonso Carlos Rodríguez Fernández-Peña

Universidad de Oviedo. Profesor en Estudios Ingleses especializado en fonética y fonología, lingüística aplicada y traducción audiovisual. Actor de doblaje, locutor profesional y traductor audiovisual con más de 15 años de experiencia.

ORCID UniOvi

Lucia Taylor

Una persona con una camisa azul

El contenido generado por IA puede ser incorrecto.

Utah Tech University. Profesora titular de español con especialización en lingüística aplicada.

Jonathan Delgado

Universidad de La Laguna. Profesor en la Facultad de Psicología y Logopedia. Logopeda especializado en análisis acústico con más de veinte años de experiencia.

ORCID ResearchGate Google Scholar

Plínio Barbosa

Profesor titular en el Departamento de Lingüística del Instituto de Estudos da Linguagem de la Universidade Estadual de Campinas (UNICAMP) y responsable del grupo Speech Prosody Studies.

ORCID ResearchGate

João Paulo Moraes Lima dos Santos

Instituto Federal do Sertão Pernambucano, profesor de Lengua Española y Lingüística General, especializado en fonética experimental y ciencia de datos.

ORCID ResearchGate LinkedIn

Vega Rodríguez Sánchez

CSIC. Becaria JAE Intro con líneas de investigación en Lingüística Forense, Fonética Forense y Deepfakes.

ORCID

Aurora López Jareño

CSIC. Personal técnico I+D+i en el Laboratorio de Fonética del Instituto del Lengua, Literatura y Antropología (ILLA-CSIC). Graduada en Filología Hispánica.

ORCID LinkedIn

Noticias

Consulta nuestras redes sociales para estar al día de nuestras publicaciones recientes, presentaciones en congresos y actividades de divulgación:

LinkedIn

También estamos en Substack. ¡Subscríbete a nuestra newsletter si no quieres perderte nada!

Enlace al proyecto en Digital.CSIC: https://digital.csic.es/cris/project/pj00380

Instituto de Lengua, Literatura y Antropología (ILLA)

Volver