El laboratorio de IA de Meta creó un modelo de lenguaje nuevo y masivo que comparte tanto las habilidades notables como los defectos dañinos de la red neuronal pionera GPT-3 de OpenAI. En un movimiento sin precedentes para Big Tech, lo está regalando a los investigadores, junto con detalles sobre cómo se construyó y entrenó.
Este modelo de lenguaje autorregresivo emplea aprendizaje profundo para producir textos que simulan la redacción humana.
“Creemos firmemente que la capacidad de que otros analicen su trabajo es una parte importante de la investigación. Realmente invitamos a esa colaboración”, señaló Joelle Pineau. Una defensora de la transparencia en el desarrollo de tecnología desde hace mucho tiempo, que ahora es directora general de Meta Inteligencia Artificial.
Es la primera vez que un modelo de lenguaje grande, completamente entrenado, estará disponible para cualquier investigador que quiera estudiarlo. La noticia ha sido bien recibida por muchos que están preocupados por la forma en que pequeños equipos construyen esta poderosa tecnología a puerta cerrada.
“Aplaudo la transparencia aquí”, indicó Emily M. Bender, lingüista computacional de la Universidad de Washington. Y crítica frecuente de la forma en que se desarrollan e implementan los modelos de lenguaje.
“Es un gran movimiento”, manifestó Thomas Wolf, científico jefe de Hugging Face, la startup de IA detrás de BigScience. Un proyecto en el que más de 1000 voluntarios de todo el mundo están colaborando en un modelo de lenguaje de código abierto. “Cuantos más modelos abiertos, mejor”, dijo, reseñó MIT Technology Review.
Meta IA construye modelo de lenguaje masivo
Los modelos de lenguaje extenso, poderosos programas que pueden generar párrafos de texto e imitar una conversación humana, se han convertido en una de las tendencias más populares en IA en los últimos años. Pero tienen fallas profundas, repiten como loros la desinformación, los prejuicios y el lenguaje tóxico.
En teoría, poner a más personas a trabajar en el problema debería ayudar. Sin embargo, debido a que los modelos de lenguaje requieren grandes cantidades de datos y poder de cómputo para entrenarse, hasta ahora se han mantenido como proyectos para firmas tecnológicas ricas. La comunidad investigadora en general, incluidos los especialistas en ética y los científicos sociales preocupados por su uso indebido, ha tenido que observar desde el margen.
Meta AI dice que quiere cambiar eso. “Muchos de nosotros hemos sido investigadores universitarios”, comentó Pineau. “Sabemos la brecha que existe entre las universidades y la industria en cuanto a la capacidad de construir estos modelos. Poner este a disposición de los investigadores fue una obviedad”. Ella espera que otros estudien minuciosamente su trabajo y lo deshagan o construyan sobre él. Los avances llegan más rápido cuando hay más personas involucradas.
Meta está poniendo a disposición su modelo, llamado Open Pretrained Transformer (OPT), para uso no comercial. También está lanzando su código y un libro de registro que documenta el proceso de capacitación. El libro de registro contiene actualizaciones diarias de los miembros del equipo sobre los datos de entrenamiento. Cómo se agregaron al modelo y cuándo, qué funcionó y qué no. En más de 100 páginas de notas, los investigadores registran cada error, falla y reinicio. En un proceso de capacitación de tres meses que se desarrolló desde octubre de 2021 hasta enero de 2022.
Presionan por una mayor transparencia
Con 175 mil millones de parámetros (los valores en una red neuronal que se modifican durante el entrenamiento), OPT tiene el mismo tamaño que GPT-3. Esto fue por diseño, precisó Pineau. El equipo construyó OPT para igualar a GPT-3 tanto en su precisión en tareas de lenguaje como en su toxicidad. OpenAI ha hecho que GPT-3 esté disponible como un servicio pago, pero no ha compartido el modelo en sí ni su código. La idea era proporcionar a los investigadores un modelo de lenguaje similar para estudiar, agregó.
OpenAI rechazó una invitación para comentar sobre el anuncio de Meta. Google, que está explorando el uso de grandes modelos de lenguaje en sus productos de búsqueda, también ha sido criticado por su falta de transparencia. La compañía generó controversia en 2020 cuando expulsó a los principales miembros de su equipo de ética de IA después de que produjeron un estudio que destacó los problemas con la tecnología.
Entonces, ¿por qué Meta está haciendo esto? Después de todo, Meta es una empresa que ha dicho poco sobre cómo funcionan los algoritmos detrás de Facebook e Instagram. Y tiene la reputación de enterrar los hallazgos desfavorables de sus propios equipos de investigación internos. Una gran razón para el enfoque diferente de Meta IA es la propia Pineau, quien ha estado presionando por una mayor transparencia en la IA durante varios años.
Los gigantes tecnológicos dominan la investigación, pero la línea entre el avance real y la exhibición de productos puede ser confusa. Algunos científicos han tenido suficiente.
Riesgos del modelo de lenguaje
Pineau ayudó a cambiar la forma en que se publican las investigaciones en varias de las conferencias más grandes. Presentando una lista de verificación de cosas que los investigadores deben enviar junto con sus resultados. Incluido el código y detalles sobre cómo se ejecutan los experimentos. Desde que se unió a Meta (entonces Facebook) en 2017, ha defendido esa cultura en su laboratorio de inteligencia artificial.
“Ese compromiso con la ciencia abierta es la razón por la que estoy aquí”, asentó Joelle Pineau. “No estaría aquí en otros términos”.
En última instancia, quiere cambiar la forma en que juzgamos a la IA. “Lo que llamamos tecnología de punta hoy en día no puede ser solo rendimiento”, resaltó. “Tiene que ser lo último en términos de responsabilidad también”.
Aún así, regalar un modelo de lenguaje grande es un movimiento audaz para Meta. “No puedo decirles que no hay riesgo de que este modelo produzca un lenguaje del que no estemos orgullosos”, apuntó.
Margaret Mitchell, una de las investigadoras de ética de IA que Google expulsó en 2020, que ahora está en Hugging Face, ve el lanzamiento de OPT como un movimiento positivo. Pero ella piensa que hay límites para la transparencia. ¿Se ha probado el modelo de lenguaje con suficiente rigor? ¿Los beneficios previsibles superan los daños previsibles, como la generación de información errónea o lenguaje racista y misógino?
“Lanzar un modelo de lenguaje grande al mundo donde es probable que una amplia audiencia lo use, o se vea afectado por su producción, conlleva responsabilidades”, advirtió. Y cree que este modelo podrá generar contenido dañino no solo por sí mismo, sino también a través de aplicaciones posteriores que los investigadores construyen sobre él.
Poderosa tecnología emergente
Meta IA auditó OPT para eliminar algunos comportamientos dañinos. Pero el punto es lanzar un modelo del que los investigadores puedan aprender, con verrugas y todo, confió Pineau.
“Hubo muchas conversaciones sobre cómo hacer eso de una manera que nos permita dormir por la noche, sabiendo que existe un riesgo distinto de cero en términos de reputación. Un riesgo distinto de cero en términos de daño”. La experta descarta la idea de que no debe lanzar un modelo porque es demasiado peligroso, que es la razón que dio OpenAI para no lanzar el predecesor de GPT-3, GPT-2. “Entiendo las debilidades de estos modelos, pero esa no es una mentalidad de investigación”, añadió.
Cientos de científicos de todo el mundo están trabajando juntos para comprender una de las tecnologías emergentes más poderosas antes de que sea demasiado tarde.
Bender, coautor del estudio en el centro de la disputa de Google con Mitchell, también está preocupado por cómo se manejarán los daños potenciales. “Una cosa que es realmente clave para mitigar los riesgos de cualquier tipo de tecnología de aprendizaje automático es basar las evaluaciones y exploraciones en casos de uso específicos”, dijo. “¿Para qué se utilizará el sistema? ¿Quién lo utilizará y cómo se les presentarán los resultados del sistema?
Algunos investigadores cuestionan por qué se están construyendo grandes modelos de lenguaje, dado su potencial de daño. Para Pineau, estas preocupaciones deben abordarse con más exposición, no con menos. “Creo que la única forma de generar confianza es una transparencia extrema”, argumentó.
“Tenemos diferentes opiniones en el mundo sobre qué discurso es apropiado, y la IA es parte de esa conversación”. No espera que los modelos de lenguaje digan cosas con las que todos estén de acuerdo. “Pero, ¿cómo lidiamos con eso? Necesitas muchas voces en esa discusión”, sostuvo.
Lee también en Cambio16.com: