IA y ciberdelincuencia: Ataques por medio de clonación de Voz

08/07/2024
El futuro requiere de herramientas nuevas
Opinión: ¿Puede la IA generativa reemplazar el rol del docente?
05/07/2024
Descarga gratis el manual
Investigador U. de Chile publica manual con 39 tareas para desarrollar el pensamiento computacional en el aula
09/07/2024
El futuro requiere de herramientas nuevas
Opinión: ¿Puede la IA generativa reemplazar el rol del docente?
05/07/2024
Descarga gratis el manual
Investigador U. de Chile publica manual con 39 tareas para desarrollar el pensamiento computacional en el aula
09/07/2024
  • Hoy en día es posible generar un audio de una voz que lea un determinado texto con entonación, énfasis y otras características propias del lenguaje humano únicamente a través de  un prompt con el texto que se quiera leer

 Un día lunes por la mañana, Emilia recibe una llamada telefónica de aparente urgencia. Un ingeniero le indica que dada una actualización que requiere el refresco de una conexión,  por petición del jefe de Emilia, a ella se le requiere entregar la información de conexión a un servidor. Apresurada, Emilia entrega la información.

La información entregada en una situación como esta puede ser instrumental en la vulneración de seguridad en una empresa u organización si cae en manos de la persona equivocada. 

La Ingeniería Social se refiere a la práctica de engaño con la intención de manipular personas para la divulgación de información sensible. Existe numerosa documentación e información que explora y explica el concepto y es una de las prácticas más realizadas en vulneraciones de seguridad exitosas. Según el reporte de investigaciones de vulneraciones de seguridad 2024 (DBIR), hasta un 30% de los compromisos de seguridad involucran actualmente un factor de ingeniería social. El uso de este tipo de ataque se puede dar en múltiples variaciones (como Tailgating o Quid pro quo) sin embargo, para la discusión de este presente texto hay dos en particular que es importante mencionar.

El phishing es una de las formas más comunes de Ingeniería Social, involucra el uso de comunicación fraudulenta para que un usuario realice una acción bajo engaño.

El pretexting es otra de las formas más usuales de Ingeniería Social, esta vez involucrando la fabricación de escenarios que puedan ser explotados para la extracción de información o la ejecución de una acción que comprometa la seguridad de un sistema.

Del 30% de vulneraciones anteriormente mencionadas por el reporte de vulneraciones de Verizon que involucran ataques de ingeniería, un 73% de ellas son clasificadas en el mismo reporte como phishing o pretexting, mencionando el pretexting como la interacción de naturaleza de ingeniería social más posible. Como sea ambos métodos se aprovechan de algún usuario actuando en ignorancia o ingenuidad, obteniendo de alguna forma contexto y manipulándolo para parecer un agente confiable. La naturaleza de estos métodos supone la interacción entre dos seres humanos, o al menos la percepción de parte de la víctima de que se encuentra tratando con otro ser humano.

 

Patrones en vulneraciones: fuente, verizon DBIR 2024

Inteligencia Artificial Generativa (Gen AI)

Hoy más que nunca se encuentra difundido el uso de inteligencia artificial generativa, encontrando uso de manera transversal tanto en individuos como en organizaciones de distinto tamaño y finalidad. No es de extrañar que esto sea así, considerando la amplia gama de funciones que se pueden cubrir con IA generativa. Por medio de estas se puede generar texto que puede o no estar basado en la realidad -siempre hay que validar lo que se pregunta a una IA Generativa, dado que son propensas a ocasionalmente mentir-, analizar texto para reescribirlo en un estilo distinto, instruir la creación de un video o de algún otro medio digital, todo instruido mediante un prompt (una instrucción) entregada en lenguaje humano, o lenguaje natural, que la inteligencia artificial decodifica en instrucciones que puede comprender para realizar la acción solicitada. Todas estas capacidades son facilitadas por una de las características que ha gozado de mayor desarrollo para la IA Generativa: el procesamiento de lenguaje natural (PLN).

Procesamiento de Lenguaje Natural

El lenguaje con que nos comunicamos naturalmente suele estar compuesto de reglas y estructuras gramaticales que entregan al orden y la forma de nuestras palabras un significado que otro ser humano que comparte el mismo código lingüístico puede decodificar y comprender. El procesamiento de lenguaje natural lidia con estas abstracciones y ha permitido hoy y en el pasado tener aplicaciones con cierta utilidad como el autocorrector de un dispositivo celular o un traductor de un lenguaje a otro. Las capacidades de aprendizaje que se entienden de un modelo de Inteligencia Artificial han permitido que este sea uno de aquellos con mayor avance en el desarrollo de la inteligencia artificial; buena parte de lo que percibimos cuando hablamos de inteligencia artificial es su capacidad de “comprender” nuestro lenguaje y de “imitarnos” al responder.

Existen otras formas en las que una inteligencia artificial parece particularmente apta para engañarnos, por ejemplo generar video con una representación creíble de una persona, pero para tecnologías como esa es posible -si se sabe dónde mirar- encontrar defectos que le delatan como el producto de una inteligencia artificial. Esto es el estado actual, sin embargo esto es una tecnología constantemente en desarrollo.

Clonación de Voces

Una de las posibilidades que se han abierto por medio de las mejoras en tecnologías de PLN ha sido la generación de voz utilizando Inteligencia Artificial. Hoy en día es posible generar un audio de una voz que lea un determinado texto con entonación, énfasis y otras características propias del lenguaje humano únicamente a través de  un prompt con el texto que se quiera leer. Si se desea dicha voz puede ser entrenada con archivos de audio pertenecientes a algún individuo en particular para poder emular su voz con una certeza bastante alta. Con los datos de entrenamiento adecuados para software de código abierto como TorToiSe-tts v2 es posible generar una voz que suene igual a la de alguien más e instruirle que diga algo con la entonación o emoción deseada. Este es un proceso que idealmente ocupa el procesador gráfico del computador que lo ejecuta y requiere algo de conocimiento para su ejecución, sin embargo este constituye apenas un ejemplo de software de código abierto del que existen varias implementaciones y que puede ser instalado localmente de forma gratuita para llevar a cabo una clonación de voz. Otros ejemplos (ClonyAI) y ElevenLabs), que son de pago, permiten cambiar la voz en un archivo de audio por una voz generada y requieren en ocasiones de menos de 1 minuto de audio para replicar la voz en cuestión. 

Vale recalcar que todas las tecnologías relacionadas a IA generativa se encuentran en desarrollo hoy en día por lo que es esperable que estas se hagan más efectivas, más eficientes y que cumplan su función de manera más confiable. 

Por este motivo es indispensable conocer las posibilidades que ofrece la IA y planificar para evitar ser tomado por sorpresa. Recuerda siempre que estés comunicándote con alguien cerciorarte que se trata de quien dice ser, y de tener cuidado del contenido que subes a redes sociales u otros espacios públicos para evitar que tu voz o imagen se utilicen de formas poco éticas. De este modo podemos crear un ciberespacio más seguro para todos.

Escrito por Nicolás Huerta, Ingeniero en desarrollo seguro – VTI OSI

Referencias: 

  • https://www.verizon.com/business/resources/Tb16/reports/2024-dbir-data-breach-investigations-report.pdf
  • https://www.mckinsey.com/capabilities/quantumblack/our-insights/the-state-of-ai
  • https://github.com/neonbjb/tortoise-tts
  • https://www.ibm.com/mx-es/topics/natural-language-processing
Skip to content