Google Gemini: Todo lo que necesitas saber sobre los modelos de IA generativa

Google está intentando dar que hablar con Gemini, su suite insignia de modelos, aplicaciones y servicios de IA generativa. Pero, ¿qué es Gemini? ¿Cómo se puede utilizar? ¿Y cómo se compara con otras herramientas de IA generativa como ChatGPT de OpenAI, Llama de Meta y Copilot de Microsoft?

Para que sea más fácil mantenerse al día con los últimos desarrollos de Gemini, hemos elaborado esta práctica guía, que mantendremos actualizada a medida que se publiquen nuevos modelos de Gemini, características y noticias sobre los planes de Google para Gemini.

Gemini es la familia de modelos de inteligencia artificial generativa de próxima generación que Google ha prometido desde hace mucho tiempo . Desarrollada por los laboratorios de investigación de inteligencia artificial de Google, DeepMind y Google Research, se presenta en cuatro versiones:

Gemini Ultra , un modelo muy grande.
Gemini Pro , un modelo de gran tamaño, aunque más pequeño que el Ultra. La última versión, Gemini 2.0 Pro Experimental, es el buque insignia de Google.
Gemini Flash , una versión más rápida y “destilada” de Pro. También viene en una versión un poco más pequeña y rápida, llamada Gemini Flash-Lite, y una versión con capacidades de razonamiento, llamada Gemini Flash Thinking Experimental.
Gemini Nano , dos modelos pequeños: Nano-1 y el ligeramente más capaz Nano-2 , que está diseñado para funcionar sin conexión.

Todos los modelos de Gemini fueron entrenados para ser multimodales de forma nativa, es decir, capaces de trabajar con más que solo texto y analizarlo. Google afirma que fueron entrenados previamente y ajustados con una variedad de audios, imágenes y videos públicos, patentados y con licencia; un conjunto de bases de código y texto en diferentes idiomas.

Esto distingue a Gemini de modelos como LaMDA de Google , que se entrenó exclusivamente con datos de texto. LaMDA no puede comprender ni generar nada más allá del texto (por ejemplo, ensayos, correos electrónicos, etc.), pero ese no es necesariamente el caso de los modelos de Gemini.

Cabe señalar que la ética y la legalidad de entrenar modelos con datos públicos, en algunos casos sin el conocimiento o el consentimiento de los propietarios de los datos, son confusas. Google tiene una política de indemnización por IA para proteger a ciertos clientes de Google Cloud de demandas en caso de que las enfrenten, pero esta política contiene excepciones. Proceda con cautela, en particular si tiene la intención de utilizar Gemini con fines comerciales.

Gemini es independiente y distinto de las aplicaciones de Gemini en la web y en dispositivos móviles ( anteriormente Bard ).

Las aplicaciones Gemini son clientes que se conectan a varios modelos de Gemini y les agregan una interfaz similar a la de un chatbot. Piense en ellas como interfaces para la IA generativa de Google, análogas a ChatGPT y la familia de aplicaciones Claude de Anthropic.

Aplicación móvil Google Gemini — **Créditos de la imagen:** Google

Gemini en la web está aquí . En Android, la aplicación Gemini reemplaza a la aplicación Google Assistant existente. Y en iOS, las aplicaciones Google y Google Search funcionan como clientes de Gemini de esa plataforma.

En Android, recientemente también se hizo posible abrir la superposición de Gemini sobre cualquier aplicación para hacer preguntas sobre lo que hay en la pantalla (por ejemplo, un video de YouTube). Solo mantén presionado el botón de encendido de un teléfono inteligente compatible o di "Ok Google"; verás que aparece la superposición.

Las aplicaciones de Gemini pueden aceptar imágenes, así como comandos de voz y texto (incluidos archivos como PDF y, próximamente, videos, ya sea cargados o importados desde Google Drive) y generar imágenes. Como es de esperar, las conversaciones con las aplicaciones de Gemini en dispositivos móviles se transfieren a Gemini en la Web y viceversa si inicias sesión en la misma cuenta de Google en ambos lugares.

Las aplicaciones Gemini no son el único medio para contratar la ayuda de modelos Gemini con las tareas. Lentamente, las funciones de Gemini se están abriendo camino en aplicaciones y servicios básicos de Google, como Gmail y Google Docs.

Para aprovechar la mayoría de estas funciones, necesitará el plan Google One AI Premium. Técnicamente, el plan AI Premium es parte de Google One , cuesta $20 y brinda acceso a Gemini en las aplicaciones de Google Workspace, como Docs, Maps, Slides, Sheets, Drive y Meet. También habilita lo que Google llama Gemini Advanced, que lleva los modelos Gemini más sofisticados de la empresa a las aplicaciones Gemini.

Los usuarios de Gemini Advanced también obtienen extras aquí y allá, como acceso prioritario a nuevas funciones, la capacidad de ejecutar y editar código Python directamente en Gemini y una "ventana de contexto" más grande. Gemini Advanced puede recordar el contenido de aproximadamente 750.000 palabras en una conversación (o 1.500 páginas de documentos) y razonar sobre ellas. Eso se compara con las 24.000 palabras (o 48 páginas) que puede manejar la aplicación Gemini estándar.

Captura de pantalla de un anuncio de Google Gemini — **Créditos de la imagen:** Google

Gemini Advanced también brinda a los usuarios acceso a la función Deep Research de Google, que utiliza “razonamiento avanzado” y “capacidades de contexto extenso” para generar informes de investigación. Después de que le solicites al chatbot, este crea un plan de investigación de varios pasos, te pide que lo apruebes y luego Gemini se toma unos minutos para buscar en la web y generar un informe extenso basado en tu consulta. Está diseñado para responder preguntas más complejas como, “¿Puedes ayudarme a rediseñar mi cocina?”

Google también ofrece a los usuarios de Gemini Advanced una función de memoria que permite al chatbot utilizar sus conversaciones anteriores con Gemini como contexto para su conversación actual. Los usuarios de Gemini Advanced también obtienen un mayor uso de NotebookLM, el producto de la empresa que convierte archivos PDF en podcasts generados por IA.

Los usuarios de Gemini Advanced también tendrán acceso a la versión experimental de Gemini 2.0 Pro de Google, el modelo estrella de la compañía que está optimizado para problemas matemáticos y de codificación difíciles.

Otra característica exclusiva de Gemini Advanced es la planificación de viajes en la Búsqueda de Google, que crea itinerarios de viaje personalizados a partir de indicaciones. Teniendo en cuenta aspectos como los horarios de los vuelos (de los correos electrónicos en la bandeja de entrada de Gmail del usuario), las preferencias de comidas y la información sobre las atracciones locales (de los datos de Google Search y Maps), así como las distancias entre esas atracciones, Gemini generará un itinerario que se actualizará automáticamente para reflejar cualquier cambio.

Gemini también está disponible para clientes corporativos en todos los servicios de Google a través de dos planes: Gemini Business (un complemento para Google Workspace) y Gemini Enterprise. Gemini Business cuesta tan solo 6 USD por usuario al mes, mientras que Gemini Enterprise (que incluye toma de notas de reuniones y subtítulos traducidos, además de clasificación y etiquetado de documentos) suele ser más caro, pero su precio se basa en las necesidades de la empresa. (Ambos planes requieren un compromiso anual).

En Gmail, Gemini se encuentra en un panel lateral que permite escribir correos electrónicos y resumir hilos de mensajes. Encontrarás el mismo panel en Documentos, donde te ayuda a escribir y refinar tu contenido y a generar nuevas ideas. Gemini en Presentaciones genera diapositivas e imágenes personalizadas. Y Gemini en Hojas de cálculo de Google realiza un seguimiento y organiza los datos, creando tablas y fórmulas.

El chatbot de inteligencia artificial de Google llegó recientemente a Maps , donde Gemini puede resumir reseñas sobre cafeterías u ofrecer recomendaciones sobre cómo pasar un día visitando una ciudad extranjera.

El alcance de Gemini también se extiende a Drive, donde puede resumir archivos y carpetas y brindar información rápida sobre un proyecto. Mientras tanto, en Meet, Gemini traduce subtítulos a otros idiomas.

Géminis en Gmail — **Créditos de la imagen:** Google

Gemini llegó recientemente al navegador Chrome de Google en forma de una herramienta de escritura con inteligencia artificial. Puedes usarla para escribir algo completamente nuevo o reescribir un texto existente; Google dice que tendrá en cuenta la página web en la que te encuentras para hacer recomendaciones.

En otros lugares, encontrará indicios de Gemini en los productos de base de datos de Google, herramientas de seguridad en la nube y plataformas de desarrollo de aplicaciones (incluidos Firebase y Project IDX ), así como en aplicaciones como Google Photos (donde Gemini maneja consultas de búsqueda en lenguaje natural), YouTube (donde ayuda a generar ideas para videos) y el asistente para tomar notas NotebookLM .

Code Assist (anteriormente Duet AI for Developers ), el conjunto de herramientas de asistencia con tecnología de inteligencia artificial de Google para completar y generar código, está descargando una gran carga computacional en Gemini. Lo mismo ocurre con los productos de seguridad de Google respaldados por Gemini , como Gemini en Threat Intelligence, que puede analizar grandes porciones de código potencialmente malicioso y permitir que los usuarios realicen búsquedas en lenguaje natural para detectar amenazas en curso o indicadores de vulneración.

Anunciado en Google I/O 2024, los usuarios de Gemini Advanced pueden crear gemas , chatbots personalizados impulsados por modelos de Gemini. Las gemas se pueden generar a partir de descripciones en lenguaje natural (por ejemplo, "Eres mi entrenador de carrera. Dame un plan de carrera diario") y compartirlas con otros o mantenerlas privadas.

Las gemas están disponibles en computadoras de escritorio y dispositivos móviles en 150 países y en la mayoría de los idiomas. Con el tiempo, podrán aprovechar un conjunto ampliado de integraciones con los servicios de Google, incluidos Google Calendar, Tasks, Keep y YouTube Music, para completar tareas personalizadas.

Gemas de Géminis — **Créditos de la imagen:** Google

Hablando de integraciones, las aplicaciones de Gemini en la web y en dispositivos móviles pueden aprovechar los servicios de Google a través de lo que Google llama “extensiones de Gemini”. Gemini se integra actualmente con Google Drive, Gmail y YouTube para responder a consultas como “¿Podrías resumir mis últimos tres correos electrónicos?”. Más adelante este año, Gemini podrá realizar acciones adicionales con Google Calendar, Keep, Tasks, YouTube Music y Utilities, las aplicaciones exclusivas de Android que controlan funciones del dispositivo como temporizadores y alarmas, controles multimedia, la linterna, el volumen, Wi-Fi, Bluetooth, etc.

Una experiencia llamada Gemini Live permite a los usuarios tener chats de voz "en profundidad" con Gemini. Está disponible en las aplicaciones de Gemini en dispositivos móviles y en los Pixel Buds Pro 2 , donde se puede acceder a ella incluso cuando el teléfono está bloqueado.

Si activas Gemini Live, podrás interrumpir a Gemini mientras el chatbot esté hablando (con una de las nuevas voces disponibles) para hacerle una pregunta aclaratoria y este se adaptará a tus patrones de habla en tiempo real. En algún momento, se supone que Gemini debe adquirir comprensión visual, lo que le permitirá ver y responder a tu entorno, ya sea a través de fotos o videos capturados por las cámaras de tu teléfono inteligente.

Géminis en vivo — **Créditos de la imagen:** Google

Live también está diseñado para funcionar como una especie de entrenador virtual, que te ayuda a ensayar para eventos, a generar ideas, etc. Por ejemplo, Live puede sugerir qué habilidades destacar en una próxima entrevista de trabajo o de prácticas, y puede dar consejos sobre cómo hablar en público.

Puedes leer nuestra reseña de Gemini Live aquí . Alerta de spoiler: creemos que esta función aún tiene un largo camino por recorrer antes de que sea muy útil, pero es muy pronto, hay que reconocerlo.

Los usuarios de Gemini pueden generar obras de arte e imágenes utilizando el modelo Imagen 3 integrado de Google.

Google afirma que Imagen 3 puede comprender con mayor precisión los mensajes de texto que traduce en imágenes en comparación con su predecesor, Imagen 2 , y es más "creativo y detallado" en sus generaciones. Además, el modelo produce menos artefactos y errores visuales (al menos según Google), y es el mejor modelo de Imagen hasta el momento para la representación de texto.

Google Imagen 3 — Una muestra de la Imagen 3. **Créditos de la imagen:** Google

En febrero de 2024, Google se vio obligada a pausar la capacidad de Gemini para generar imágenes de personas después de que los usuarios se quejaran de imprecisiones históricas . Pero en agosto, la empresa reintrodujo la generación de personas para ciertos usuarios, específicamente los usuarios de habla inglesa registrados en uno de los planes pagos de Gemini de Google (por ejemplo, Gemini Advanced ) como parte de un programa piloto.

En junio, Google presentó una experiencia Gemini enfocada en adolescentes, que permite a los estudiantes registrarse a través de sus cuentas escolares de Google Workspace for Education.

Gemini, una plataforma enfocada en los adolescentes, tiene “políticas y salvaguardas adicionales”, incluido un proceso de incorporación personalizado y una “guía de conocimientos sobre IA” para (como lo expresa Google) “ayudar a los adolescentes a usar la IA de manera responsable”. Por lo demás, es casi idéntica a la experiencia estándar de Gemini, hasta con la función de “doble verificación” que revisa la web para ver si las respuestas de Gemini son precisas.

Un número cada vez mayor de dispositivos fabricados por Google utilizan Gemini para lograr una funcionalidad mejorada, desde Google TV Streamer hasta Pixel 9 y 9 Pro y el nuevo Nest Learning Thermostat .

En Google TV Streamer, Gemini usa tus preferencias para seleccionar sugerencias de contenido para tus suscripciones y resumir reseñas e incluso temporadas completas de TV.

Configuración de Google TV Streamer — **Créditos de la imagen:** Google

En el último termostato Nest (así como en los altavoces, cámaras y pantallas inteligentes Nest), Gemini pronto reforzará las capacidades conversacionales y analíticas del Asistente de Google.

Los suscriptores del plan Nest Aware de Google a finales de este año obtendrán una vista previa de las nuevas experiencias impulsadas por Gemini, como descripciones de IA para las grabaciones de la cámara Nest, búsqueda de videos en lenguaje natural y automatizaciones recomendadas. Las cámaras Nest comprenderán lo que está sucediendo en las transmisiones de video en tiempo real (por ejemplo, cuando un perro está cavando en el jardín), mientras que la aplicación complementaria Google Home mostrará videos y creará automatizaciones del dispositivo según una descripción (por ejemplo, "¿Los niños dejaron sus bicicletas en la entrada?", "Haz que mi termostato Nest encienda la calefacción cuando llegue a casa del trabajo todos los martes").

Google Gemini en el hogar inteligente — Pronto, Gemini podrá resumir las imágenes de las cámaras de seguridad de los dispositivos Nest. **Créditos de la imagen:** Google

Además, a finales de este año, Google Assistant recibirá algunas actualizaciones en los dispositivos domésticos inteligentes de la marca Nest y otros dispositivos para que las conversaciones resulten más naturales. Se prevén voces mejoradas, además de la capacidad de hacer preguntas de seguimiento y “cambiar de tema con más facilidad”.

Como los modelos Gemini son multimodales, pueden realizar una variedad de tareas multimodales, desde transcribir voz hasta subtitular imágenes y videos en tiempo real. Muchas de estas capacidades ya han llegado a la etapa de producto (como se mencionó en la sección anterior) y Google promete mucho más en un futuro no muy lejano.

Por supuesto, es un poco difícil creerle a la empresa lo que dice. Google no cumplió con las expectativas con el lanzamiento original de Bard. Más recientemente, causó revuelo con un video que pretendía mostrar las capacidades de Gemini, pero que era más o menos aspiracional, no en vivo.

Además, Google no ofrece ninguna solución para algunos de los problemas subyacentes de la tecnología de IA generativa actual, como sus sesgos codificados y su tendencia a inventar cosas (es decir, alucinar ). Sus rivales tampoco lo hacen, pero es algo que hay que tener en cuenta al considerar el uso o el pago de Gemini.

Suponiendo, a los efectos de este artículo, que Google es sincero con sus afirmaciones recientes, esto es lo que los diferentes niveles de Gemini pueden hacer ahora y lo que podrán hacer una vez que alcancen su máximo potencial:

Google dice que Gemini Ultra , gracias a su multimodalidad, se puede utilizar para ayudar con tareas de física, resolver problemas paso a paso en una hoja de trabajo y señalar posibles errores en respuestas ya completadas.

Sin embargo, no hemos visto mucho de Gemini Ultra en los últimos meses. El modelo no aparece en la aplicación Gemini y no figura en la página de precios de la API de Google Gemini. Sin embargo, eso no significa que Google no vaya a volver a poner a Gemini Ultra al frente de sus ofertas en el futuro.

Ultra también se puede aplicar a tareas como la identificación de artículos científicos relevantes para un problema, afirma Google. El modelo puede extraer información de varios artículos, por ejemplo, y actualizar un gráfico a partir de uno de ellos generando las fórmulas necesarias para recrear el gráfico con datos más actualizados.

Gemini Ultra admite técnicamente la generación de imágenes, pero esa capacidad aún no se ha incorporado a la versión productiva del modelo, tal vez porque el mecanismo es más complejo que el de las aplicaciones como ChatGPT para generar imágenes. En lugar de enviar indicaciones a un generador de imágenes (como DALL-E 3 , en el caso de ChatGPT), Gemini genera imágenes de forma "nativa", sin un paso intermedio.

Ultra está disponible como API a través de Vertex AI, la plataforma de desarrollo de IA totalmente administrada de Google, y AI Studio, la herramienta basada en web de Google para desarrolladores de aplicaciones y plataformas.

Google afirma que su último modelo Pro, Gemini 2.0 Pro , es el mejor modelo que ha lanzado hasta el momento en cuanto a rendimiento de codificación y mensajes complejos. Actualmente está disponible como versión experimental, lo que significa que puede tener problemas inesperados.

Gemini 2.0 Pro supera a su predecesor, Gemini 1.5 Pro , en las pruebas comparativas que miden la codificación, el razonamiento, las matemáticas y la precisión fáctica. El modelo puede procesar hasta 1,4 millones de palabras, dos horas de vídeo o 22 horas de audio y puede razonar o responder preguntas sobre esos datos ( más o menos ).

Sin embargo, Gemini 1.5 Pro aún potencia la función de Investigación profunda de Google.

Gemini 2.0 Pro funciona junto con una función llamada ejecución de código, lanzada en junio junto con Gemini 1.5 Pro , que tiene como objetivo reducir los errores en el código que genera el modelo al refinar iterativamente ese código en varios pasos. (La ejecución de código también es compatible con Gemini Flash).

En Vertex AI, los desarrolladores pueden personalizar Gemini Pro para contextos y casos de uso específicos a través de un proceso de ajuste fino o de "puesta a tierra". Por ejemplo, se puede indicar a Pro (junto con otros modelos de Gemini) que utilice datos de proveedores externos como Moody's, Thomson Reuters, ZoomInfo y MSCI, o que obtenga información de conjuntos de datos corporativos o de Google Search en lugar de su banco de conocimientos más amplio. Gemini Pro también se puede conectar a API externas de terceros para realizar acciones específicas, como automatizar un flujo de trabajo administrativo.

AI Studio ofrece plantillas para crear mensajes de chat estructurados con Pro. Los desarrolladores pueden controlar el rango creativo del modelo y brindar ejemplos para dar instrucciones sobre el tono y el estilo, y también ajustar la configuración de seguridad de Pro.

Vertex AI Agent Builder permite a las personas crear "agentes" con tecnología Gemini dentro de Vertex AI. Por ejemplo, una empresa podría crear un agente que analice campañas de marketing anteriores para comprender el estilo de una marca y luego aplicar ese conocimiento para ayudar a generar nuevas ideas coherentes con ese estilo.

Google llama a Gemini 2.0 Flash su modelo de IA para la era de la agencia. El modelo puede generar imágenes y audio de forma nativa, además de texto, y puede utilizar herramientas como Google Search e interactuar con API externas.

El modelo Flash 2.0 es más rápido que la generación anterior de modelos de Gemini e incluso supera a algunos de los modelos Gemini 1.5 más grandes en las pruebas comparativas de codificación y análisis de imágenes. Puedes probar Gemini 2.0 Flash en la aplicación web o móvil de Gemini y a través de las plataformas para desarrolladores de IA de Google.

En diciembre, Google lanzó una versión "pensante" de Gemini 2.0 Flash , capaz de "razonar", en la que el modelo de IA tarda unos segundos en resolver un problema al revés antes de dar una respuesta.

En febrero, Google puso a disposición de los usuarios la versión 2.0 Flash de Gemini en la aplicación Gemini. Ese mismo mes, Google también lanzó una versión más pequeña llamada Gemini 2.0 Flash-Lite. La empresa afirma que este modelo supera a su modelo Gemini 1.5 Flash, pero funciona al mismo precio y con la misma velocidad.

Flash, una versión pequeña y eficiente de Gemini Pro diseñada para cargas de trabajo de IA generativa de alta frecuencia y limitadas, es multimodal como Gemini Pro, lo que significa que puede analizar audio, video, imágenes y texto (pero solo puede generar texto). Google afirma que Flash es particularmente adecuado para tareas como aplicaciones de resumen y chat, además de subtítulos de imágenes y videos y extracción de datos de documentos y tablas extensos.

Los desarrolladores que utilizan Flash y Pro pueden aprovechar opcionalmente el almacenamiento en caché de contexto, que les permite almacenar grandes cantidades de información (por ejemplo, una base de conocimientos o una base de datos de artículos de investigación) en una memoria caché a la que los modelos de Gemini pueden acceder de forma rápida y relativamente económica. Sin embargo, el almacenamiento en caché de contexto supone un coste adicional que se suma a otros costes de uso de los modelos de Gemini.

Gemini Nano es una versión mucho más pequeña de los modelos Gemini Pro y Ultra, y es lo suficientemente eficiente como para ejecutarse directamente en (algunos) dispositivos en lugar de enviar la tarea a un servidor en algún lugar. Hasta ahora, Nano potencia un par de funciones en Pixel 8 Pro, Pixel 8 , Pixel 9 Pro, Pixel 9 y Samsung Galaxy S24 , incluido Resumir en Grabadora y Respuesta inteligente en Gboard.

La aplicación Recorder, que permite a los usuarios pulsar un botón para grabar y transcribir audio, incluye un resumen con tecnología Gemini de conversaciones, entrevistas, presentaciones y otros fragmentos de audio grabados. Los usuarios reciben resúmenes incluso si no tienen señal o conexión Wi-Fi y, en un gesto de privacidad, no se pierden datos de su teléfono durante el proceso.

Nano también está en Gboard, el reemplazo del teclado de Google. Allí, potencia una función llamada Smart Reply, que ayuda a sugerir lo siguiente que querrás decir cuando tengas una conversación en una aplicación de mensajería como WhatsApp.

En la aplicación Google Messages de los dispositivos compatibles, Nano controla Magic Compose, que puede crear mensajes en estilos como “emocionado”, “formal” y “lírico”.

Google afirma que una futura versión de Android utilizará Nano para alertar a los usuarios sobre posibles estafas durante las llamadas. La nueva aplicación meteorológica de los teléfonos Pixel utiliza Gemini Nano para generar informes meteorológicos personalizados. Y TalkBack, el servicio de accesibilidad de Google, utiliza Nano para crear descripciones auditivas de objetos para usuarios ciegos o con baja visión.

Gemini 1.5 Pro, 1.5 Flash, 2.0 Flash y 2.0 Flash-Lite están disponibles a través de la API Gemini de Google para crear aplicaciones y servicios, todas con opciones gratuitas. Sin embargo, las opciones gratuitas imponen límites de uso y dejan de lado ciertas funciones, como el almacenamiento en caché de contexto y el procesamiento por lotes .

Los modelos Gemini son de pago por uso. Estos son los precios básicos (sin incluir complementos como el almacenamiento en caché de contexto) a partir de septiembre de 2024:

Gemini 1.5 Pro: $1.25 por 1 millón de tokens de entrada (para solicitudes de hasta 128K tokens) o $2.50 por 1 millón de tokens de entrada (para solicitudes de más de 128K tokens); $5 por 1 millón de tokens de salida (para solicitudes de hasta 128K tokens) o $10 por 1 millón de tokens de salida (para solicitudes de más de 128K tokens)
Gemini 1.5 Flash: 7,5 centavos por cada millón de tokens de entrada (para indicaciones de hasta 128 000 tokens), 15 centavos por cada millón de tokens de entrada (para indicaciones de más de 128 000 tokens), 30 centavos por cada millón de tokens de salida (para indicaciones de hasta 128 000 tokens), 60 centavos por cada millón de tokens de salida (para indicaciones de más de 128 000 tokens)
Gemini 2.0 Flash: 10 centavos por cada millón de tokens de entrada, 40 centavos por cada millón de tokens de salida. En el caso específico del audio, cuesta 70 centros por cada millón de tokens de entrada y también 40 centros por cada millón de tokens de salida.
Gemini 2.0 Flash-Lite: 7,5 centavos por cada millón de tokens de entrada, 30 centavos por cada millón de tokens de salida.

Los tokens son fragmentos subdivididos de datos sin procesar, como las sílabas “fan”, “tas” y “tic” en la palabra “fantástico”; un millón de tokens equivale a unas 700.000 palabras. La entrada se refiere a los tokens que se introducen en el modelo, mientras que la salida se refiere a los tokens que genera el modelo.

El precio de 2.0 Pro aún no se ha anunciado y Nano todavía está en acceso anticipado .

El Proyecto Astra es el esfuerzo de Google DeepMind por crear aplicaciones y "agentes" basados en IA para la comprensión multimodal en tiempo real. En demostraciones, Google ha demostrado cómo el modelo de IA puede procesar simultáneamente audio y video en vivo. Google lanzó una versión de aplicación del Proyecto Astra para un pequeño número de evaluadores de confianza en diciembre, pero no tiene planes para un lanzamiento más amplio por ahora.

A la compañía le gustaría incluir el Proyecto Astra en unas gafas inteligentes . Google también entregó un prototipo de unas gafas con Proyecto Astra y capacidades de realidad aumentada a unos cuantos probadores de confianza en diciembre. Sin embargo, no hay un producto claro en este momento, y no está claro cuándo Google lanzará realmente algo así.

El Proyecto Astra sigue siendo sólo eso, un proyecto, no un producto. Sin embargo, las demostraciones de Astra revelan lo que Google quiere que hagan sus productos de inteligencia artificial en el futuro.

Podría ser.

Apple ha dicho que está en conversaciones para utilizar Gemini y otros modelos de terceros en una serie de funciones de su suite Apple Intelligence . Tras una presentación destacada en la WWDC 2024, el vicepresidente sénior de Apple, Craig Federighi, confirmó los planes de trabajar con modelos , incluido Gemini, pero no divulgó ningún detalle adicional.

Esta publicación se publicó originalmente el 16 de febrero de 2024 y se actualiza periódicamente.

techcrunch

Google Gemini: Todo lo que necesitas saber sobre los modelos de IA generativa

Gemini Ultra , un modelo muy grande.
Gemini Pro , un modelo de gran tamaño, aunque más pequeño que el Ultra. La última versión, Gemini 2.0 Pro Experimental, es el buque insignia de Google.
Gemini Flash , una versión más rápida y “destilada” de Pro. También viene en una versión un poco más pequeña y rápida, llamada Gemini Flash-Lite, y una versión con capacidades de razonamiento, llamada Gemini Flash Thinking Experimental.
Gemini Nano , dos modelos pequeños: Nano-1 y el ligeramente más capaz Nano-2 , que está diseñado para funcionar sin conexión.