Google lanzó al competido mercado de inteligencia artificial una nueva herramienta llamada Gemini. Sus creadores afirman que es un modelo multimodal, que va a poder entender varios tipos de información, tanto los textos como las imágenes, y también podrá entender audio y código de programación. Esto lo va a convertir en un instrumento extremadamente flexible que rivalizará con ChatGPT de OpenIA.
A las pocas horas de su lanzamiento, Gemini se ha ganado la aceptación de los usuarios y superado a todos sus rivales en los principales tests. Esto quiere decir que, por lo pronto, Google ha conseguido adelantar a OpenAI y su GPT-4. Aunque, dada la velocidad en que surgen nuevas tecnologías, este modelo será seguramente superado.
Según la presentación de Google, Gemini tiene capacidades multimodales sofisticadas, pudiendo dominar conversaciones, lenguaje y contenido de estilo humano. Así como comprender e interpretar imágenes, códigos, manejar datos y análisis, y ser utilizado por desarrolladores para crear nuevas aplicaciones de IA y API. Entendiéndolo como el conjunto de reglas y protocolos que permite la comunicación entre diferentes aplicaciones.
Esta herramienta representa un esfuerzo por llevar la IA generativa hasta los confines del imperio de Google. Según la empresa, Gemini 1.0 está disponible en tres tamaños diferentes: Nano, que está optimizado para dispositivos móviles y desarrolladores de aplicaciones. Pro, que es el modelo por defecto diseñado para una amplia gama de tareas y clientes. y Ultra, el modelo de IA más sofisticado construido por Google y que aún está siendo sometido a pruebas de seguridad.
Google lanza su modelo de IA Gemini
Demis Hassibis, director de Google DeepMind, señaló que el desempeño de Gemini Ultra supera los resultados actuales de última generación. En 30 de los 32 puntos de referencia académicos ampliamente utilizados y el desarrollo de modelos de lenguajes grandes (LLM).
“Con una puntuación del 90,0%, Gemini Ultra aventaja a otros modelos. Es el primero que supera a los expertos humanos en MMLU (Massive Multitask Language Understanding). Esto es, en comprensión masiva de lenguajes multitarea, que utiliza una combinación de 57 materias. Entre ellas, matemáticas, física, historia, derecho, medicina y ética para evaluar conocimientos y habilidades para resolver problemas”, dijo Google.
Detalló además que «el nuevo enfoque de referencia para MMLU permite a Gemini, la nueva herramienta de IA, utilizar sus capacidades de razonamiento para pensar más detenidamente antes de responder preguntas difíciles. Esto genera mejoras significativas con respecto al simple uso de su primera impresión».
El CEO de Google, Sundar Pichai, adicionó que «esta nueva era de modelos representa uno de los mayores esfuerzos de ciencia e ingeniería que hemos emprendido como compañía».
El chatbot de IA propiedad de Google, Bard, ya fue actualizado con una versión del modelo Gemini, informó la compañía, con planes para agregar Gemini a productos ampliamente utilizados. Incluyendo el motor de búsqueda de Google y el navegador web Chrome, que son utilizados por miles de millones de personas en todo el mundo.
El anuncio supone un intento de recuperar la delantera después de que Google y otros gigantes de la tecnología se vieran sorprendidos hace un año por el lanzamiento repentino y masivamente popular de ChatGPT de OpenAI. Herramienta que desencadenó una carrera desenfrenada en toda la industria para acelerar la IA generativa y un debate mundial sobre los riesgos y beneficios de la IA.
Mayor utilidad y precisión
El lanzamiento también se diseñó para mostrar los avances de Google en computación en la nube, un recurso fundamental para los desarrolladores de IA. La empresa indicó que entrenó a Gemini utilizando una nueva generación de potentes procesadores basados en la nube que pueden entrenar colectivamente grandes modelos de IA casi tres veces más rápido que la versión anterior.
Esta tecnología, que se pondrá a disposición de los clientes de la nube de Google, podría implicar un impulso para el sector de la IA en general. Haciendo más accesible el entrenamiento de la inteligencia artificial y reforzando la tercera posición de Google en el mercado de servicios de nube pública. Pero no está claro cómo se comparan los chips de IA de Google con los de los principales fabricantes de chips, como Nvidia.
El modelo Gemini de Google superó a los modelos de IA rivales en más de dos docenas de pruebas de referencia utilizadas habitualmente por los investigadores de IA para evaluar la comprensión lectora, la capacidad matemática y las habilidades de razonamiento multipaso de un algoritmo, según la empresa.
Eli Collins, vicepresidente de producto de Google DeepMind, indicó: «Vemos que establece nuevos tipos de fronteras en todos los ámbitos». Sin embargo, reseñó CNN, pareció reconocer que sigue existiendo el riesgo de que los modelos de IA ofrezcan a los usuarios resultados engañosos. En alusión a las preocupaciones de grupos de la sociedad civil, legisladores e investigadores en IA.
Incursión gradual en el mercado
Google ha hecho «mucho trabajo para mejorar la objetividad en Gemini», resaltó Collins. Pero los grandes modelos de lenguaje «todavía son capaces de alucinar». Un término que los investigadores de IA utilizan cuando los sistemas de IA inventan hechos y se equivocan.
«Cuando integramos estos modelos en productos como Bard, disponemos de técnicas adicionales para mejorar la precisión de las respuestas», dijo.
En reconocimiento de esos riesgos, Google asentó que Gemini Ultra solo se lanzará gradualmente a «clientes selectos, desarrolladores, socios y expertos en seguridad y responsabilidad para la experimentación temprana. Y la retroalimentación antes de desplegarlo a los desarrolladores y clientes empresariales a principios del próximo año».
Gemini Ultra se está sometiendo actualmente a evaluaciones de seguridad por parte de terceros, también conocidas como «equipo rojo», según un compromiso que adquirió con el Gobierno de Biden a principios en verano.