OpenAI, decidió –como siempre– arriesgarse en su estrategia promocional de la última versión de ChatGPT: su nuevo chatbot 4o empleó una voz femenina y reconocida por el gran público, ¿era de la Scarlett Johansson? Esa interrogante de la que todos hablan tiene molesta a la actriz porque asegura que no lo consintió. Mientras tanto, sus abogados y la empresa de Inteligencia Artificial dimiten el asunto que promete traer cola.
Johansson, que puso voz a un asistente de IA en la película “Her”, ha dejado claro que no hizo lo mismo con OpenAI y ha exigido a la empresa que deje de utilizar el imitador. Esta es otra señal de la erosión de la confianza en OpenAI, que ha recibido críticas de industrias creativas y antiguos empleados. La increpan de falsear voces de famosos. Días después de que el anuncio de un producto de OpenAI suscitara el debate sobre una de las voces del nuevo asistente virtual de ChatGPT, Johansson ofreció unas polémicas declaraciones. “Me sorprendió, me enfadó y me sentí incrédula”, dijo.
Los abogados de la actriz exigen que OpenAI revele cómo desarrolló la voz de un asistente personal de IA que la compañía tecnológica ha bautizado como “Sky” y que según Johansson suena increíblemente parecida a la suya. Hasta los momentos la empresa no ha explicado quién puso la voz. Quizás intencionalmente, se ha generado un entramado de dimes y diretes que ha generado tráfico en Internet sobre la controversia, seguramente bienvenida para la promoción del nuevo producto.
Sam Altman, CEO de OpenAI, alentó tácitamente la comparación publicitando el anuncio con una sola palabra –“Her”– en las redes sociales y escribiendo que la nueva ChatGPT “se parece a la IA de las películas”.
La polémica de Scarlet Johansson y OpenAI
La actriz, modelo y empresaria estadounidense, ganadora de un Premio Tony y un BAFTA, nominada para dos Óscar y cinco Globos de Oro, se enfureció. «Cuando escuché la demo, me quedé estupefacta e incrédula de que Sam Altman buscara una voz que sonaba tan extrañamente parecida a la mía. Mis amigos más cercanos y los medios ni notan la diferencia», dijo.
El directivo de OpenAI intentó convencer a Scarlett Johansson de que pusiera voz a ChatGPT asegurando que su timbre reconfortaría a la gente. «Me dijo que podría tender un puente entre empresas tecnológicas y creativos. Además, los consumidores se sentirían más cómodos con el cambio sísmico relacionado con los humanos y la lA», afirmó. Le preocupa todo que rodea a los deepfakes y prefirió no llegar a un acuerdo con la compañía. «Pese a mi negativa la voz del chatbot es extrañamente parecida a la mía», insistió.
La directora de tecnología de OpenAI, Mira Murati, salió al paso al comentario. “Creemos que las voces de IA no deben imitar deliberadamente la voz distintiva de una celebridad: la voz de Sky no es una imitación de Scarlett Johansson. Pertenece a una actriz profesional que usa su propia voz natural. Para proteger su privacidad no podemos compartir los nombres de nuestros locutores. Ha sido una coincidencia”, alegó.
La empresa suspendió hasta que se aclare la disputa el uso de la voz parecida a la de Scarlett Johansson para evitar complicaciones y «por respeto a la actriz». Reiteró que no clonaron la voz de Johansson y que pertenece a una actriz de doblaje.
El uso de tecnologías para falsear otras voces
Scarlett Johansson vinculó explícitamente la disputa con OpenAI con la lucha sobre “deepfakes” . «Mi rechazo a la semejanza es por la protección de la imagen propia y el propio trabajo, mi propia identidad», dijo.
También recordó los temores de los guionistas de Hollywood, las empresas de noticias, los escritores y otros creadores sobre la posibilidad de que la IA se forme en su trabajo sin su permiso -o compensación- o sustituya a los humanos. The Times y otros periódicos han demandado a OpenAI y Microsoft por infracción de derechos de autor.
Antiguos empleados de OpenAI han acusado a la empresa de preocuparse más por hacer negocio y ganar dinero que por garantizar que sus productos no perjudiquen a la humanidad. Los ciberdelincuentes se aprovechan de esas tecnologías para crear falsas realidades y engañar a las personas. Recientemente, la oficina del fiscal general de New Hampshire, Estados Unidos, confirmó que está investigando un «intento ilegal» de supresión de votantes.
Se han detectado varias cuentas en redes sociales que difunden información falsa sobre el proceso electoral y animan a los ciudadanos a no votar. Las cuentas, supuestamente creadas por ciberdelincuentes, pretenden sembrar la desconfianza en el sistema democrático y desmotivar la participación ciudadana. NBC News denunció que los votantes de dicho estado habrían recibido una falsa llamada de parte de «Joe Biden», donde les solicitaba que no asistieran a las urnas en las primarias presidenciales el pasado 3 de febrero.
GPT-4o razona en tiempo real
CleVoice, el principal generador de voces de celebridades con IA, transforma tu voz en personalidades famosas como Obama, Trump, Biden y Musk. Es una herramienta gratuita que permite crear voces de celebridades rápidamente. CleVoice también ofrece una prueba gratuita para utilizar a diario. También con Inteligencia Artificial falsearon imagen y voz de Lionel Messi para hacer estafas. Países y líderes globales han pedido poner freno a estas herramientas por los riesgos que suponen para las personas.
El freno no se ha concretado. Todo lo contrario, se ha aplicado un acelerador y Open AI es parte del impulso. La empresa afirma que GPT-4o es un paso hacia una interacción persona-computadora mucho más natural. Acepta como entrada cualquier combinación de texto, audio, imagen y video y genera cualquier combinación de texto, audio e imagen y salida. Puede responder a entradas de audio en tan solo 232 milisegundos, que es similar al tiempo de respuesta humano (se abre en una nueva ventana) en una conversación.
Antes de GPT-4o, podías usar el modo de voz para hablar con ChatGPT con latencias de 2,8 segundos (GPT-3.5) y 5,4 segundos (GPT-4) en promedio. Para lograr esto, Voice Mode es una canalización de tres modelos separados: un modelo simple transcribe audio a texto, GPT-3.5 o GPT-4 toma texto y genera texto. Y un tercer modelo simple convierte ese texto nuevamente en audio. Con GPT-4o, se entrenamos un único modelo nuevo de extremo a extremo en texto, visión y audio. Significa que todas las entradas y salidas son procesadas por la misma red neuronal. «Es nuestro modelo insignia que puede razonar a través de audio, visión y texto en tiempo real”, afirma Voice Mode