Clonación y hackeo de voz, riesgos del voice hacking con IA

Conoce cómo funciona la clonación de voz con inteligencia artificial, sus riesgos de hackeo y cómo protegerte del voice phishing.

Hace unos años parecía ciencia ficción, pero hoy es una realidad: una voz puede copiarse, modificarse y utilizarse para engañar a otras personas. Cada vez más familias reciben llamadas extrañas, audios por WhatsApp supuestamente enviados por un familiar o mensajes urgentes que apelan al miedo o a la prisa. Detrás de muchos de estos intentos de estafa está el voice hacking, una práctica que combina ingeniería social e inteligencia artificial para suplantar identidades mediante la voz.

Para madres y padres de niños, niñas y adolescentes, entender cómo funciona este tipo de fraude es clave. No solo para protegerse a uno mismo, sino también para educar a los y las menores en un uso seguro de la tecnología y de su propia voz en internet.

Qué es el voice hacking o phishing de voz

El voice hacking, también conocido como phishing de voz o vishing, es una técnica de fraude en la que las personas ciberdelincuentes utilizan llamadas telefónicas o mensajes de audio para engañar a la víctima y obtener información sensible, dinero o acceso a cuentas personales.

En los últimos años, este tipo de estafa ha evolucionado gracias a la inteligencia artificial, que permite clonar voces reales con un grado de realismo cada vez mayor. Según la Agencia de Ciberseguridad de la Unión Europea (ENISA), el uso de IA en fraudes de ingeniería social es una de las principales amenazas emergentes en ciberseguridad.

Cómo funciona un ataque de clonación de voz

El proceso suele comenzar con la obtención de muestras de voz. Estas pueden proceder de redes sociales, vídeos públicos, audios enviados por mensajería instantánea o incluso mensajes de voz dejados en un contestador. Con apenas unos segundos de grabación, algunos sistemas actuales ya son capaces de recrear una voz muy convincente.

Una vez clonada, la voz se utiliza para llamar a familiares, compañeros de trabajo o incluso a entidades bancarias. La persona atacante se hace pasar por alguien de confianza y solicita una acción urgente: una transferencia, un código de verificación o información personal.

Ejemplos reales de estafas con voz clonada

Lejos de ser una amenaza teórica, la clonación de voz con inteligencia artificial ya se ha utilizado en estafas reales que han afectado tanto a familias como a grandes empresas.

Uno de los casos atendidos por la Línea de Ayuda en Ciberseguridad de INCIBE fue el de una mujer que recibió una llamada en la que escuchó claramente la voz de su marido. En la conversación, la supuesta voz le pedía que enviara un mensaje a un número desconocido. Algo no encajaba, y decidió colgar y llamar al teléfono habitual de su esposo. Él confirmó que no había realizado ninguna llamada. Todo apuntaba a que la voz había sido generada mediante inteligencia artificial, posiblemente a partir de grabaciones obtenidas en llamadas previas o audios disponibles. Gracias a la comprobación, la estafa no llegó a consumarse.

A nivel internacional, uno de los casos más conocidos es el de Jennifer DeStefano, ocurrido en 2023 en Estados Unidos. Jennifer recibió una llamada en la que escuchó a alguien imitando de forma muy realista la voz de su hija, llorando y diciendo que había sido secuestrada. Poco después, un hombre exigió un rescate de 50.000 dólares. La llamada estaba diseñada para provocar pánico y bloquear cualquier pensamiento racional. Jennifer logró ganar tiempo y contactar con otros familiares, descubriendo que su hija estaba sana y salva. El FBI utilizó este caso para alertar públicamente sobre el uso de clonación de voz con fines de extorsión emocional.

Otro ejemplo es el de Ruth Card, una mujer canadiense de 73 años que recibió una llamada de alguien que sonaba exactamente como su nieto. En la llamada, el supuesto nieto afirmaba haber sido detenido y necesitaba dinero urgentemente para pagar la fianza. Ruth y su marido llegaron a retirar 3.000 dólares canadienses del banco, convencidos de estar ayudando a un familiar. Afortunadamente, antes de entregar el dinero, comenzaron a sospechar y comprobaron que todo era falso: la voz que habían escuchado era una clonación generada por IA.

Todos estos casos tienen algo en común: la confianza en una voz conocida y la presión emocional o de urgencia. Por eso, tanto el Instituto Nacional de Ciberseguridad (INCIBE) como otros organismos recomiendan no actuar nunca de forma impulsiva ante llamadas inesperadas y verificar siempre la información por un canal alternativo antes de tomar decisiones importantes.

Qué es la clonación de voz con inteligencia artificial

La clonación de voz con IA es una tecnología que permite generar una réplica digital de una voz humana. A diferencia de las grabaciones tradicionales, estas voces sintéticas pueden decir frases nuevas que la persona original nunca ha pronunciado.

Esta tecnología tiene usos legítimos —como la accesibilidad, los asistentes virtuales o el doblaje—, pero también puede ser explotada con fines delictivos si no se usa de forma ética y regulada.

Tecnologías que permiten clonar una voz

Los sistemas de clonación de voz se basan en modelos de machine learning y deep learning, entrenados con grandes volúmenes de datos de audio. Herramientas comerciales y de código abierto permiten generar voces sintéticas a partir de grabaciones relativamente cortas.

Organismos como el Instituto Nacional de Ciberseguridad (INCIBE) advierten de que estas tecnologías están cada vez más accesibles, lo que reduce la barrera de entrada para los estafadores.

Diferencia entre deep voice y clonación de voz

Aunque a veces se usan como sinónimos, no son exactamente lo mismo.

El término deep voice suele referirse a audios generados mediante técnicas de deepfake que imitan una voz concreta en un contexto específico, como un mensaje falso.
La clonación de voz, en cambio, implica crear un modelo completo de una voz capaz de generar múltiples frases nuevas con entonación y estilo similares al original.

Ambas técnicas comparten riesgos, pero la clonación de voz es más versátil y peligrosa a largo plazo.

¿Pueden hackearte por responder un mensaje o una llamada?

Una de las preguntas más habituales es si basta con responder una llamada para ser hackeado. En general, contestar una llamada no implica un hackeo automático, pero sí puede tener riesgos si se interactúa sin precaución.

Qué riesgos existen al grabar tu voz

Responder con frases largas, decir “sí” de forma clara o dejar mensajes de voz puede proporcionar material valioso para los delincuentes. Aunque no siempre se utiliza para clonar voces, sí puede emplearse en estafas más simples o para reforzar fraudes posteriores.

Por eso, expertos en ciberseguridad recomiendan ser prudentes con llamadas desconocidas y evitar compartir información personal por teléfono.

Cómo usan los ciberdelincuentes las grabaciones de voz

Las grabaciones pueden servir para entrenar modelos de clonación, para engañar a sistemas de verificación por voz o para generar audios falsos dirigidos a personas cercanas a la víctima. En el caso de adolescentes, el riesgo aumenta si publican vídeos o audios públicos sin configurar adecuadamente la privacidad de sus cuentas.

Cómo detectar una voz clonada y evitar fraudes

Detectar una voz clonada no siempre es sencillo, pero hay señales de alerta. Las llamadas suelen transmitir urgencia extrema, historias poco coherentes o peticiones fuera de lo habitual. A veces la entonación es ligeramente robótica o carece de las pausas naturales del habla.

Para las familias, una medida clave es establecer palabras clave o códigos familiares para confirmar identidades en situaciones urgentes. También es recomendable cortar la llamada y devolverla por un canal habitual, o confirmar la información con otra persona antes de actuar.

La educación digital es fundamental: enseñar a los hijos e hijas a no enviar audios públicos innecesarios, a desconfiar de mensajes alarmistas y a consultar siempre con una persona adulta ante una situación sospechosa.

Herramientas y recursos recomendados

Para protegerse frente al voice hacking, es importante combinar hábitos seguros con recursos fiables. El INCIBE, a través de la Oficina de Seguridad del Internauta, ofrece guías actualizadas sobre fraudes por voz y suplantación de identidad: https://www.incibe.es/ciudadania/blog/que-es-el-voice-hacking

A nivel internacional, organismos como la Agencia de la Unión Europea para la Ciberseguridad y el FBI publican alertas periódicas sobre nuevas técnicas de fraude basadas en IA. También existen herramientas experimentales que ayudan a detectar audios manipulados, aunque todavía no son infalibles.

Aunque las herramientas anteriores ayudan, tu primer filtro siempre será el sentido común y los hábitos de seguridad:

Activa siempre autenticación de dos factores (2FA) en tus cuentas importantes para reducir el impacto de cualquier suplantación.
Mantén dispositivos y aplicaciones actualizados con los últimos parches de seguridad.
Enseña a tus hijos e hijas a desconfiar de mensajes con urgencia o miedo, y a verificar la identidad de quien llama usando claves familiares o canales alternativos.