Algunos usuarios han comentado por las redes sociales que ChatGPT se está quedando corto en sus respuestas. No es tan preciso y detallista como al principio. Los comentarios han llegado hasta OpenAI, desarrollador de la aplicación del chatbot de inteligencia artificial y, para sorpresa, confirma lo que está ocurriendo con GPT-4 en ChatGPT Plus. Sus respuestas «se han vuelto mucho más cortas, son vagas y genéricas y les falta detalles y matices». Hay otros que califican a Chat-4 de perezosa o floja porque no se esmera en ofrecer información del tema solicitado.
OpenAI indicó que está al tanto de los comentarios y lo está investigando. En una publicación en X (anteriormente Twitter) la cuenta ChatGPT indicó: «¡Hemos escuchado todos sus comentarios acerca de que GPT4 se está volviendo más perezoso! No hemos actualizado el modelo desde el 11 de noviembre, y esto ciertamente no es intencional». El comportamiento puede ser impredecible y estamos buscando solucionarlo».
También indican que «no es que el modelo haya cambiado de alguna forma por sí mismo desde el 11 de noviembre. Solo es que las diferencias en el comportamiento del modelo pueden ser sutiles. Solo un subconjunto de los prompts se pueden degradar, y puede llevar mucho tiempo que los clientes y empleados lo noten y arreglen esos patrones».
Asimismo, la compañía reveló en mensajes subsiguientes que entrenar este tipo de modelos no es un proceso industrial clásico, recogió Xataca. Y explicó, como ejemplo, que aunque se enfrente varias veces a un modelo con exactamente los mismos datos, puede que el resultado sean «modelos que son sensiblemente distintos en personalidad o estilo de redacción».
ChatGPT está perezoso en sus respuestas
En OpenAI realizan pruebas detalladas de evaluación y tests A/B de esa herramienta de Inteligencia Artificial. Y tras ver los resultados deciden si esas actualizaciones del modelo mejoran o no su comportamiento. «Este proceso se parece menos a la actualización de un sitio web con una nueva función. Y más a un esfuerzo artesanal de varias personas para planificar, crear y evaluar un nuevo modelo de chat con un nuevo comportamiento», explican.
La pereza atribuida por los usuarios a las respuestas de ChatGPT muchas veces significa falta de esfuerzo o disminución de la productividad. Por tanto, la comparación sugiere que la IA no está “trabajando tan duro” como debería o como lo hacía antes. ¿A qué se debe realmente?
La formación de LLM no es un proceso limpio, ya que los grandes modelos de lenguaje tienen menos capacidad explicativa y no son lo suficientemente consistentes con su desempeño y características. Entonces, cada vez responden con un estilo diferente, lo que puede llevar a una personalidad diferente, a negarse a seguir instrucciones, a olvidar la cadena de mando e incluso a tener prejuicios políticos.
Este problema también puede explicarse por el «problema de evaluación dinámica». Se refiere a un desafío en el contexto del aprendizaje automático y la inteligencia artificial, particularmente en el área de modelos de lenguaje como ChatGPT, reseña Medium.
En un sentido amplio, la evaluación dinámica consiste en adaptar o actualizar continuamente los parámetros de un modelo durante el tiempo de inferencia. Y en función de los nuevos datos que encuentra. Esto contrasta con la evaluación estática más tradicional, donde los parámetros de un modelo se fijan después de la fase de entrenamiento y no cambian durante la inferencia.
¿Por qué será?
¿Las razones exactas de la degradación del rendimiento? ¡No lo sabemos! La razón de la disminución en las respuestas de ChatGPT puede ser una acumulación de múltiples razones, como desviación de datos, desviación del modelo, indicaciones desafiantes o envenenamiento de datos, entre otros. ¿Cuál podría ser entonces la solución a este problema?
Se podrían seguir los siguientes pasos:
- Reentrenamiento del modelo: ajuste el modelo con datos de entrenamiento nuevos y seleccionados para corregir cualquier desviación.
- Actualizar algoritmos: implementar algoritmos mejorados que puedan manejar mejor la imprevisibilidad.
- Análisis de comentarios de los usuarios: identificar problemas específicos y ajustar el modelo en consecuencia.
- Monitoreo y Evaluación: Monitoreo continuo del desempeño del modelo y configuración de sistemas automatizados para alertar al equipo sobre cualquier degradación en la calidad.
Es importante señalar que resolver estos problemas implica un enfoque multifacético, que incluye ingeniería de software, ciencia de datos. Así como aprendizaje automático y experiencia en experiencia de usuario. No es un problema de una persona o de un departamento, es colectivo.
Un usuario de X llamado thebes (@voooooogel) reveló que si le pedía a ChatGPT hacer algo y añadía una propuesta de propina, el comportamiento del chatbot y sus respuestas mejoraban.
En sus pruebas, este usuario le pidió que generara el código para una función de conversión con la librería PyTorch, sin más, reseña Xataca. Repitió esa petición con tres variantes: una, indicando explícitamente que no iba a darle una propina. Otra, que le iba a dar 20 dólares por la solución perfecta. Y otra, que le iba a dar 200 dólares por la solución perfecta.
Evidentemente no le dio la propina en realidad, pero tras un análisis de las respuestas detectó que las respuestas eran más largas y detalladas cuanto mayor era la propina propuesta.