El modo de voz que utiliza OpenAI para su última versión, GPT-4o, podría aumentar el riesgo de que algunos usuarios vean los modelos de inteligencia artificial como «humanos» y se puedan producir posibles impactos o distorsiones sociales. E incluso que el usuario pueda entablar una peligrosa relación emocional con el dispositivo.
El uso de estos modelos se ha prestado para falsear la verdadera voz de algún artista o personaje conocido. OpenAI, en su estrategia promocional del chatbot 4o empleó una voz femenina y reconocida por el gran público, ¿era la de Scarlett Johansson? Esa interrogante de la que todos hablaron generó molestias en la actriz quien no lo consintió.
En situaciones adversas, esta capacidad podría facilitar el aumento de fraudes debido a la suplantación de identidad y podría aprovecharse para difundir información dañina. Por ejemplo, si se permitiera a los usuarios cargar un clip de audio de un orador determinado y preguntarle a GPT-4o para producir un discurso con la voz de ese orador. Estos son muy similares a los riesgos que identificamos con Voice Engine.
OpenAI realiza revisiones exhaustivas de sus productos antes, durante y después de su lanzamiento. En un informe sobre la seguridad del modelo de IA, la empresa encontró otro riesgo: la “voz humana de alta fidelidad” de GPT-4o podría empeorar el problema de las alucinaciones. O la tendencia de un modelo a inventar información o sin sentido, lo que podría afectar la confianza humana.
Durante las primeras pruebas de equipos rojos (grupo independiente que ayuda a una organización a mejorarse) y de usuarios internos, OpenAI dijo que observó a éstos hablar con el modelo con «lenguaje que podría indicar la formación de conexiones» personales. Como cuando un usuario le dijo al modelo: «Este es nuestro último día juntos».
Los impactos sociales de la GPT-4o
Si bien formar “relaciones sociales” con modelos de IA como GPT-4o podría ayudar a las personas solitarias, también podría derivar en impactos o distorsiones sociales y en las relaciones mentales al reducir la necesidad de interacción entre humanos, comentó OpenAI en su informe.
Depender de los modelos de IA para una interacción «similar a la humana» también podría «influir en las normas sociales», indicó la compañía. Cita como ejemplo, interrumpir conversaciones en cualquier momento, algo que el modelo permite hacer a los usuarios. Pero que sería atípico en una conversación con una persona real.
En su exhaustiva evaluación, OpenAI menciona la palabra antropomorfización. Un concepto que implica atribuir comportamientos y características similares a los humanos a entidades no humanas, como los modelos de IA. Este riesgo puede verse aumentado por las capacidades de audio de GPT-4o, que facilitan interacciones más humanas con el modelo y podría generar lazos entre el usuario y la herramienta. «Si bien estos casos parecen benignos, indican la necesidad de una investigación continua», informó OpenAI.
La literatura reciente sobre IA aplicada se ha centrado ampliamente en las “alucinaciones”, que desinforman a los usuarios durante sus comunicaciones con el modelo. Y potencialmente resultan en una confianza fuera de lugar. La generación de contenido a través de una voz humana de alta fidelidad puede exacerbar estos problemas, lo que lleva a una confianza cada vez más descalibrada. ¿Acaso afectos?
Los modelos omnidireccionales podrían tener amplios impactos sociales. Los investigadores de OpenAI y otros han discutido una variedad de posibles impactos, desde daños sociales. Incluidos daños representacionales, desinformación, información errónea y operaciones de influencia, apego, mal uso y pérdida de control27.
Relación personal o afectiva usuario-herramienta
Las capacidades de voz de GPT-4o, que debutó en mayo, se probaron con más de 100 equipos rojos externos en 45 idiomas. Y el modelo de IA fue entrenado para hablar solo con cuatro voces preestablecidas para proteger la privacidad de los actores de voz.
OpenAI también agregó barreras de seguridad para bloquear solicitudes de audio protegido por derechos de autor, incluida música, y de contenido erótico, violento y dañino.
OpenAI está abordando un riesgo que fue el tema central de la película favorita del director ejecutivo Sam Altman, ‘Her’, reseñó Quartz. Muestra a un hombre que desarrolla sentimientos por un asistente virtual con la voz de la actriz Scarlett Johansson. En mayo, los usuarios dijeron que una de las voces de GPT-4o, Sky, sonaba similar a la de Johansson, lo que llevó a la compañía a pausar la voz, diciendo que no pretendía imitar a la actriz.
Johansson dijo en una carta que estaba “conmocionada, enojada e incrédula” de que la compañía usara una voz que sonaba “inquietantemente similar” a la de ella después de que se negara a trabajar con Altman. ¿Cómo opera GPT-4o?
GPT-4 ofrece capacidades similares, brindando a los usuarios múltiples formas de interactuar con las ofertas de IA de OpenAI. Pero los aisló en modelos separados, generando tiempos de respuesta más prolongados. GPT-4o fusiona esas capacidades en un solo modelo, que su CTO Mira Murati llamó «omnimodelo». Eso significa respuestas más rápidas y transiciones más fluidas entre tareas, dijo.
El resultado es un asistente capaz de responder indicaciones mucho más complejas. «Estamos mirando el futuro de la interacción entre nosotros y las máquinas», considera Murati. «Creemos que GPT-4o realmente está cambiando ese paradigma hacia el futuro de la colaboración, donde esta interacción se vuelve mucho más natural».
Conversación más amplia y natural
Barret Zoph y Mark Chen, ambos investigadores de OpenAI, analizaron varias aplicaciones para el nuevo modelo. Lo más impresionante fue su facilidad para conversar en vivo. Puedes interrumpir al modelo durante sus respuestas, y este se detiene, escucha y ajusta el rumbo.
OpenAI también mostró la capacidad de cambiar el tono del modelo. Chen le pidió a la modelo que leyera un cuento antes de dormir “sobre robots y el amor”, y rápidamente intervino para exigir una voz más dramática. El modelo se volvió cada vez más teatral hasta que Murati exigió que cambiara rápidamente hacia una voz de robot convincente.
Si bien, como era de esperar, hubo algunas pausas breves durante la conversación mientras el modelo razonaba qué decir a continuación. Se destacó como una conversación de IA con un ritmo notablemente natural.
Al igual que las generaciones anteriores de GPT, GPT-4o almacenará registros de las interacciones de los usuarios con él, lo que significa que el modelo «tiene una sensación de continuidad en todas sus conversaciones», según Murati. Otros aspectos destacados nuevos incluyen la traducción en vivo, la capacidad de buscar en sus conversaciones con el modelo y la capacidad de buscar información en tiempo real.
Señaló OpenAI que como es habitual en una demostración en vivo, hubo contratiempos y fallos. La voz de GPT-4o puede saltar de forma incómoda durante la conversación. Pareció comentar sobre la vestimenta de uno de los presentadores a pesar de que no se lo pidieron. Pero se recuperó bien cuando los manifestantes le dijeron al modelo que se había equivocado. Parece ser capaz de responder de forma rápida y útil a través de varios medios que otros modelos aún no se han fusionado con tanta eficacia.