De la Caja de Pandora de la Inteligencia Artificial salió el deepfake. Crear material con sus herramientas se ha vuelto relativamente simple. Mientras que detectar material sintético, (auditivo o visual), generalmente es algo que solo los expertos pueden hacer. Se necesitan múltiples líneas de investigación para determinar la procedencia del contenido falso. Las herramientas de detección de IA disponibles comercialmente aún no son lo suficientemente fiables. El futuro es de terror.
Los expertos han estado advirtiendo durante mucho tiempo sobre un futuro en el que la inteligencia artificial hará que sea imposible distinguir entre la realidad digital y la ficción. Ese futuro ya está aquí. La creación y manipulación de imágenes y vídeos digitales no es algo nuevo. Pero el rápido avance de la tecnología de IA en los últimos años facilita y acelera el proceso de creación de convincentes vídeos falsos.
El término “deepfake” se popularizó por primera vez a finales de 2017, cuando una cuenta de Reddit llamada Deepfakes publicó vídeos pornográficos generados con un algoritmo de intercambio de rostros basado en Redes Neuronales Profundas (DNN). Desde entonces, el término se ha utilizado de manera más generalizada para referirse a cualquier tipo de vídeo de suplantación de identidad generado por IA.
Herramientas a la mano
A pesar de lo creativas e interesantes que sean las aplicaciones de los deepfakes, existe la posibilidad de que se conviertan en armas. Los vídeos falsificados creados por IA, especialmente por Redes Neuronales Profundas, representan una nueva dimensión en el problema de la desinformación en línea. La tecnología para crear deepfakes está al alcance de los usuarios comunes. Hay muchas herramientas de software gratuitas disponibles en GitHub, como FakeApp, DFaker, faceswap-GAN, faceswap y DeepFaceLab. Por lo tanto, no es difícil imaginar que la tecnología podría utilizarse en campañas políticas y otros eventos sociales significativos.
Un caso reciente evidencia el riesgo que pueden representar las herramientas de IA generativa ampliamente disponibles y la dificultad de detectar su uso. En las redes circuló una grabación que parece ser del director de una escuela haciendo comentarios racistas. El clip ofensivo de audio, que sonaba como la voz del director, se publicó la semana pasada. Se difundió rápidamente por Internet. Luego apareció en las noticias locales y nacionales. Sin embargo, el clip no había sido verificado. Según varios informes de los medios de comunicación, un portavoz del sindicato asegura que fue generado por IA.
No es la primera vez que se cuestiona la autenticidad de una grabación potencialmente dañina. Tampoco es la primera vez que alguien crea un deepfake que se vuelve viral. Pero en la mayoría de los casos, se ha tratado de figuras públicas. Como el presidente ruso Vladimir Putin o el presidente estadounidense Joe Biden. No de ciudadanos comunes como directores de escuelas.
Esta misma semana, una serie de llamadas automáticas en New Hampshire imitaban la voz de Biden para intentar disuadir a la gente de participar en las elecciones primarias del estado. La reciente explosión de la IA generativa significa que más personas tienen los medios para crear falsificaciones convincentes. Es posible que la sociedad no esté preparada para enfrentar la inevitable ola de fraudes digitales resultante. Ni la inminente implicación de que cualquier medio de comunicación puede ser fraudulento.
Gran asimetría
Hany Farid, profesor de informática de la Universidad de California, Berkeley, que se especializa en ciencia forense digital y análisis de medios, explicó a Scientific American que crea falsificaciones de audio convincentes se ha vuelto algo “trivial”. Según Farid, todo lo que se necesita es uno a dos minutos de la voz de una persona. Aún más sencillo, existen servicios que, por una tarifa mensual de 5 dólares, permiten subir el audio de referencia y clonar la voz. Luego, se puede teclear y obtener un audio convincente en cuestión de segundos. Se conoce como conversión de texto a voz.
Otra forma de hacerlo es de voz a voz. Se graba a una persona y se clona su voz. Luego se graba a otra diciendo lo que se quiere que digan, con toda la entonación, y se convierte a la voz clonada. Ambos métodos utilizan la misma tecnología subyacente de IA generativa. Cualquiera puede hacerlo. No hay barreras de entrada ni se requieren conocimientos técnicos.
Sin embargo, se necesita un nivel muy alto de habilidad para identificar el audio generado. Farid sostiene que existe una gran asimetría. Porque se puede ganar mucho dinero creando material falso, pero no se gana mucho dinero detectándolo. La detección es más difícil porque es sutil, complicada y el listón está cada vez más alto. Según Farid, solo unos pocos laboratorios en el mundo pueden hacerlo de manera confiable. En su opinión ninguna herramienta pública de detección de deepfakes es lo suficientemente confiable. “Yo no las usaría. Hay mucho en juego, no sólo para la vida y la reputación de las personas. También por el precedente que sienta en cada caso. Tenemos que juzgar estas cosas con cuidado”, afirma.
Caja de Pandora
Para Siwei Lyu, la competencia entre la creación y la detección de deepfakes es un desafío que no se resolverá en el corto plazo. Lyu es Profesor de Innovación del Departamento de Ingeniería y Ciencias de la Computación de la Universidad Estatal de Nueva York. Dice que es probable que veamos deepfakes más fáciles de producir, más realistas y más difíciles de identificar. El actual desafío de la falta de detalles en la síntesis se superará combinando los modelos Generative Adversarial Networks (GAN), con los avances en hardware y en estructuras de redes neuronales más eficientes. El tiempo de entrenamiento y generación se reducirá.
“Recientemente, hemos visto nuevos algoritmos capaces de ofrecer un nivel de realismo mucho mayor o ejecutarse casi en tiempo real. Los futuros vídeos deepfake irán más allá del simple intercambio de caras, hasta la síntesis de cabezas completas (head puppetry), la síntesis audiovisual conjunta (talking heads) e incluso la síntesis de cuerpo entero”.
Siwei Lyu Profesor de Innovación del Departamento de Ingeniería y Ciencias de la Computación SUNY
Los deepfakes originales solo pretendían engañar a los ojos humanos. Pero recientemente se han desarrollado medidas para hacerlos también indistinguibles para los algoritmos de detección. Lyu explica que las medidas, conocidas como contrafalsificaciones. Aprovechan la fragilidad de las redes neuronales profundas añadiendo “ruido” invisible dirigido al vídeo deepfake generado para despistar al detector basado en redes neuronales.
Obligada a evolucionar
Para contrarrestar la amenaza que suponen los deepfakes cada vez más sofisticados, la tecnología de detección también tendrá que evolucionar. También debería hacerse hincapié en aumentar la robustez de los métodos de detección frente a la compresión de vídeo y el blanqueo en redes sociales. Al igual que otras operaciones habituales de posprocesamiento, frente a operaciones contraforenses intencionadas. Mientras se intenta mejorar el rendimiento general de la detección.
Dada la velocidad de propagación y el alcance de los medios de comunicación en línea, incluso el método de detección más eficaz funcionará en gran medida de forma post mortem, (aplicable sólo después de que surjan los vídeos deepfake). Por lo tanto, también veremos el desarrollo de enfoques más proactivos para proteger a las personas de convertirse en víctimas de este tipo de ataques. Lo que puede lograrse “envenenando” los posibles datos de entrenamiento para sabotear el proceso de entrenamiento de los modelos de síntesis de deepfakes.
“Las tecnologías que autentican los vídeos originales mediante marcas de agua digitales invisibles o captura de control también verán un desarrollo activo para complementar los métodos de detección y protección”.
Siwei Lyu
El profesor de la Universidad de Nueva York sostiene que los deepfakes no se limitan a un problema técnico. «Se ha abierto la caja de Pandora, no van a desaparecer en un futuro previsible», afirma. Pero con las mejoras técnicas en nuestra capacidad para detectarlos y una mayor concienciación pública sobre el problema, podemos «aprender a coexistir con ellos y limitar sus efectos negativos en el futuro».
Todos en peligros
Imaginemos un futuro en el que un estudiante de secundaria se enfada con su director, o un empleado con su jefe, y decide vengarse creando un deepfake. La amenaza podría extenderse a todos los educadores, administradores, empleadores y líderes del país. No solo a las figuras públicas como Joe Biden son las que están en riesgo. La creación de deepfakes ya no requiere largas horas de grabaciones de voz o imágenes de alguien. Para ejemplo el caso de las niñas españolas.
Farid opina que era evidente que iba a suceder. No era una cuestión de “si”, sino de “cuándo”. Ahora, la tecnología está aquí. Pero no es solo una historia de IA generativa. Es una historia de las redes sociales y de los medios de comunicación principales. Por lo que debemos tener en cuenta todo el ecosistema. En el que cada uno de nosotros juega un papel. Le resulta particularmente preocupante que los medios de comunicación publiquen noticias sin examinar a fondo y verificar lo que están recibiendo.
Confiar en lo que leemos, vemos y oímos en Internet se vuelve más difícil con el paso de los días. Porque habrá personas que serán víctimas de deepfakes y habrá personas que alegarán falsamente la “defensa de la IA” para evitar rendir cuentas. Cada vez que se reporta un incidente con deepfake, los expertos invierten unos tres días para averiguar qué está pasando. Algo que no es escalable según los expertos. “Podemos hacer análisis en unos pocos casos, pero ¿qué pasa cuando esto ocurre todos los días, varias veces al día?”, se pregunta Farid.
Era previsible
Para el experto de Berkeley vamos a tener que cambiar la forma en que consideramos las pruebas en un tribunal. La buena noticia-dice- es que, en los tribunales, a diferencia de lo que ocurre en las redes sociales o con la opinión pública, se dedica tiempo al análisis. “Me consuela saber que el sistema judicial avanza lentamente”.
Sin embargo, una gran cuestión jurídica abierta es la responsabilidad de las empresas de IA ante el público. Se pregunta ¿Por qué las empresas pueden ofrecer estos servicios de inteligencia artificial prácticamente sin barreras? Los deepfakes, no son una consecuencia imprevista de la IA generativa. «Esto era claramente previsible», afirma. Pero hasta ahora, muchas empresas han decidido que sus beneficios eran más importantes que evitar daños.
“Creo que debería haber alguna forma de responsabilizar a las empresas. Tal vez una persona afectada por un deepfake debería poder demandar a la empresa detrás del producto que lo creó”.
Hany Farid Profesor de informática de la Universidad de California, Berkeley
Aunque piensa que la responsabilidad civil no es un sistema perfecto, matiza que en el pasado ha protegido a los consumidores de tecnologías defectuosas y peligrosas. “No creo que las empresas de inteligencia artificial deban tener carta blanca”. Cita como ejemplo que es parte de la razón por la que los coches son mucho más seguros ahora que en el pasado. A la distancia, luego de escuchar a los expertos los deepfake lucen mucho más peligrosos y aterradores que los coches. Si, el futuro da terror.