Desde LLM hasta alucinaciones, aquí hay una guía sencilla de términos comunes de IA.

La inteligencia artificial es un mundo complejo y complejo. Los científicos que trabajan en este campo suelen recurrir a la jerga para explicar su trabajo. Por ello, a menudo usamos estos términos técnicos en nuestra cobertura de la industria de la inteligencia artificial. Por eso, consideramos útil crear un glosario con definiciones de algunas de las palabras y frases más importantes que usamos en nuestros artículos.
Actualizaremos periódicamente este glosario para agregar nuevas entradas a medida que los investigadores descubran continuamente métodos novedosos para ampliar la frontera de la inteligencia artificial al tiempo que identifican riesgos de seguridad emergentes.
La inteligencia artificial general, o AGI, es un término confuso. Pero generalmente se refiere a la IA que es más capaz que el humano promedio en muchas, si no la mayoría, de las tareas. El CEO de OpenAI, Sam Altman, describió recientemente la AGI como el "equivalente a un humano promedio que podría contratar como compañero de trabajo". Mientras tanto, el estatuto de OpenAI define la AGI como "sistemas altamente autónomos que superan a los humanos en la mayoría de los trabajos económicamente valiosos". La comprensión de Google DeepMind difiere ligeramente de estas dos definiciones; el laboratorio ve la AGI como "IA que es al menos tan capaz como los humanos en la mayoría de las tareas cognitivas". ¿Confundido? No se preocupe, también lo están los expertos a la vanguardia de la investigación en IA .
Un agente de IA se refiere a una herramienta que utiliza tecnologías de IA para realizar una serie de tareas en tu nombre, más allá de lo que un chatbot de IA más básico podría hacer, como registrar gastos, reservar entradas o una mesa en un restaurante, o incluso escribir y mantener código. Sin embargo, como ya hemos explicado , hay muchos elementos en juego en este espacio emergente, por lo que "agente de IA" puede tener diferentes significados para cada persona. La infraestructura también se está desarrollando para alcanzar las capacidades previstas. Sin embargo, el concepto básico implica un sistema autónomo que puede recurrir a múltiples sistemas de IA para realizar tareas de múltiples pasos.
Ante una pregunta sencilla, el cerebro humano puede responderla sin pensarlo demasiado, como "¿qué animal es más alto, una jirafa o un gato?". Pero en muchos casos, se necesita papel y lápiz para dar la respuesta correcta, ya que existen pasos intermedios. Por ejemplo, si un granjero tiene gallinas y vacas, y juntas tienen 40 cabezas y 120 patas, podría necesitar escribir una ecuación sencilla para obtener la respuesta (20 gallinas y 20 vacas).
En un contexto de IA, el razonamiento en cadena para grandes modelos de lenguaje implica descomponer un problema en pasos intermedios más pequeños para mejorar la calidad del resultado final. Generalmente, obtener una respuesta lleva más tiempo, pero es más probable que sea correcta, especialmente en un contexto de lógica o programación. Los modelos de razonamiento se desarrollan a partir de grandes modelos de lenguaje tradicionales y se optimizan para el razonamiento en cadena gracias al aprendizaje por refuerzo.
(Ver: Modelo de lenguaje grande )
Evento Techcrunch
Berkeley, CA | 5 de junio
REGÍSTRATE AHORAUn subconjunto del aprendizaje automático automejorable en el que los algoritmos de IA se diseñan con una estructura de red neuronal artificial (RNA) multicapa. Esto les permite establecer correlaciones más complejas en comparación con sistemas más sencillos basados en el aprendizaje automático, como modelos lineales o árboles de decisión. La estructura de los algoritmos de aprendizaje profundo se inspira en las vías neuronales interconectadas del cerebro humano.
Los modelos de IA de aprendizaje profundo pueden identificar por sí mismos características importantes en los datos, sin necesidad de que ingenieros humanos las definan. La estructura también admite algoritmos que aprenden de los errores y, mediante un proceso de repetición y ajuste, mejoran sus propios resultados. Sin embargo, los sistemas de aprendizaje profundo requieren una gran cantidad de puntos de datos para obtener buenos resultados (millones o más). Además, suelen tardar más en entrenarse en comparación con algoritmos de aprendizaje automático más sencillos, por lo que los costes de desarrollo tienden a ser mayores.
(Ver: Red neuronal )
La difusión es la tecnología fundamental de muchos modelos de IA que generan arte, música y texto. Inspirados en la física, los sistemas de difusión destruyen lentamente la estructura de los datos (p. ej., fotos, canciones, etc.) añadiendo ruido hasta que no queda nada. En física, la difusión es espontánea e irreversible: el azúcar difundido en el café no puede recuperar su forma de cubo. Sin embargo, los sistemas de difusión en IA buscan aprender una especie de proceso de "difusión inversa" para restaurar los datos destruidos, adquiriendo la capacidad de recuperarlos del ruido.
La destilación es una técnica que se utiliza para extraer conocimiento de un gran modelo de IA con un modelo "profesor-alumno". Los desarrolladores envían solicitudes a un modelo profesor y registran los resultados. En ocasiones, las respuestas se comparan con un conjunto de datos para comprobar su precisión. Estos resultados se utilizan para entrenar al modelo estudiante, que se entrena para aproximarse al comportamiento del profesor.
La destilación permite crear un modelo más pequeño y eficiente basado en un modelo más grande, con una pérdida mínima por destilación. Probablemente así fue como OpenAI desarrolló GPT-4 Turbo, una versión más rápida de GPT-4.
Si bien todas las empresas de IA utilizan la destilación internamente, es posible que algunas también la hayan utilizado para adaptarse a los modelos de vanguardia. La destilación de un competidor suele infringir las condiciones de servicio de las API de IA y los asistentes de chat.
Esto se refiere al entrenamiento adicional de un modelo de IA para optimizar el rendimiento para una tarea o área más específica que la que anteriormente era el punto focal de su entrenamiento, generalmente mediante la introducción de datos nuevos y especializados (es decir, orientados a tareas).
Muchas empresas emergentes de IA toman modelos de lenguaje de gran tamaño como punto de partida para crear un producto comercial, pero compiten por aumentar la utilidad para un sector o tarea objetivo complementando ciclos de capacitación anteriores con ajustes basados en su propio conocimiento y experiencia específicos del dominio.
(Véase: Modelo de lenguaje grande [LLM] )
Una GAN, o Red Generativa Antagónica, es un tipo de marco de aprendizaje automático que sustenta algunos avances importantes en IA generativa para la producción de datos realistas, incluyendo (aunque no solo) herramientas de deepfake. Las GAN implican el uso de un par de redes neuronales, una de las cuales utiliza sus datos de entrenamiento para generar un resultado que se pasa al otro modelo para su evaluación. Este segundo modelo, discriminador, actúa como clasificador del resultado del generador, lo que le permite mejorar con el tiempo.
La estructura de las GAN se configura como una competencia (de ahí su nombre "adversario"), con los dos modelos programados esencialmente para intentar superarse mutuamente: el generador intenta que su salida supere al discriminador, mientras que este trabaja para detectar datos generados artificialmente. Esta competencia estructurada puede optimizar los resultados de la IA para que sean más realistas sin necesidad de intervención humana adicional. Sin embargo, las GAN funcionan mejor para aplicaciones más específicas (como la producción de fotos o vídeos realistas), en lugar de para la IA de propósito general.
«Alucinación» es el término preferido en la industria de la IA para referirse a los modelos de IA que inventan cosas, es decir, generan información incorrecta. Obviamente, esto representa un grave problema para la calidad de la IA.
Las alucinaciones producen resultados de GenAI que pueden ser engañosos e incluso podrían conllevar riesgos reales, con consecuencias potencialmente peligrosas (pensemos en una consulta de salud que devuelve consejos médicos perjudiciales). Por eso, la letra pequeña de la mayoría de las herramientas GenAI ahora advierte a los usuarios que verifiquen las respuestas generadas por IA, aunque estas advertencias suelen ser mucho menos visibles que la información que las herramientas proporcionan con solo pulsar un botón.
Se cree que el problema de la fabricación de información por parte de las IA surge como consecuencia de la falta de datos de entrenamiento. Especialmente para la GenAI de propósito general —también conocida como modelos de base—, esto parece difícil de resolver. Simplemente no existen suficientes datos para entrenar modelos de IA que resuelvan exhaustivamente todas las preguntas que podríamos plantearnos. En resumen: aún no hemos inventado a Dios.
Las alucinaciones están contribuyendo a un impulso hacia modelos de IA cada vez más especializados y/o verticales (es decir, IA de dominio específico que requieren experiencia más limitada) como una forma de reducir la probabilidad de brechas de conocimiento y disminuir los riesgos de desinformación.
La inferencia es el proceso de ejecutar un modelo de IA. Consiste en dejar que un modelo realice predicciones o extraiga conclusiones a partir de datos previamente vistos. Cabe aclarar que la inferencia no puede ocurrir sin entrenamiento; un modelo debe aprender patrones en un conjunto de datos antes de poder extrapolarlos eficazmente a partir de estos datos de entrenamiento.
Muchos tipos de hardware pueden realizar inferencias, desde procesadores de smartphones hasta potentes GPU y aceleradores de IA diseñados a medida. Sin embargo, no todos pueden ejecutar modelos con la misma eficacia. Los modelos muy grandes tardarían muchísimo en realizar predicciones, por ejemplo, en una computadora portátil en comparación con un servidor en la nube con chips de IA de alta gama.
[Ver: Formación ]
Los grandes modelos de lenguaje, o LLM, son los modelos de IA que utilizan los asistentes de IA más populares, como ChatGPT , Claude , Gemini de Google , AI Llama de Meta , Microsoft Copilot o Le Chat de Mistral . Al chatear con un asistente de IA, interactúas con un gran modelo de lenguaje que procesa tu solicitud directamente o con la ayuda de diferentes herramientas disponibles, como la navegación web o los intérpretes de código.
Los asistentes de IA y los LLM pueden tener diferentes nombres. Por ejemplo, GPT es el modelo de lenguaje extenso de OpenAI y ChatGPT es el producto del asistente de IA.
Las LLM son redes neuronales profundas compuestas por miles de millones de parámetros numéricos ( o pesos, ver más abajo ) que aprenden las relaciones entre palabras y frases y crean una representación del lenguaje, una especie de mapa multidimensional de palabras.
Estos modelos se crean codificando los patrones que encuentran en miles de millones de libros, artículos y transcripciones. Al proponer un LLM, el modelo genera el patrón más probable que se ajuste a la propuesta. Luego, evalúa la siguiente palabra más probable después de la última, basándose en lo dicho anteriormente. Repetir, repetir y repetir.
(Ver: Red neuronal )
Una red neuronal se refiere a la estructura algorítmica de múltiples capas que sustenta el aprendizaje profundo y, más ampliamente, todo el auge de las herramientas de IA generativa tras el surgimiento de grandes modelos de lenguaje.
Aunque la idea de inspirarse en las vías densamente interconectadas del cerebro humano como estructura de diseño para algoritmos de procesamiento de datos se remonta a la década de 1940, fue el auge mucho más reciente del hardware de procesamiento gráfico (GPU), a través de la industria de los videojuegos, lo que realmente desveló el potencial de esta teoría. Estos chips demostraron ser muy adecuados para entrenar algoritmos con muchas más capas de las que eran posibles en épocas anteriores, lo que permitió que los sistemas de IA basados en redes neuronales alcanzaran un rendimiento mucho mejor en numerosos dominios, como el reconocimiento de voz, la navegación autónoma y el descubrimiento de fármacos.
(Véase: Modelo de lenguaje grande [LLM] )
El desarrollo de IA con aprendizaje automático implica un proceso conocido como entrenamiento. En pocas palabras, se refiere a la introducción de datos para que el modelo pueda aprender de patrones y generar resultados útiles.
En este punto del proceso de IA, las cosas pueden volverse un poco filosóficas, ya que, antes del entrenamiento, la estructura matemática que se utiliza como punto de partida para desarrollar un sistema de aprendizaje es simplemente un conjunto de capas y números aleatorios. Solo mediante el entrenamiento, el modelo de IA realmente cobra forma. En esencia, es el proceso por el cual el sistema responde a las características de los datos lo que le permite adaptar los resultados hacia un objetivo buscado, ya sea identificar imágenes de gatos o producir un haiku a pedido.
Es importante tener en cuenta que no toda la IA requiere entrenamiento. Las IA basadas en reglas, programadas para seguir instrucciones predefinidas manualmente (por ejemplo, los chatbots lineales), no necesitan entrenamiento. Sin embargo, estos sistemas de IA probablemente tengan más limitaciones que los sistemas de autoaprendizaje (bien entrenados).
Aun así, la capacitación puede ser costosa porque requiere muchos insumos y, por lo general, los volúmenes de insumos requeridos para dichos modelos tienden a aumentar.
En ocasiones, se pueden utilizar enfoques híbridos para agilizar el desarrollo de modelos y ayudar a gestionar los costos. Por ejemplo, se puede realizar un ajuste preciso basado en datos de una IA basada en reglas, lo que significa que el desarrollo requiere menos datos, computación, energía y complejidad algorítmica que si el desarrollador hubiera empezado desde cero.
[Ver: Inferencia ]
Una técnica en la que se utiliza un modelo de IA previamente entrenado como punto de partida para desarrollar un nuevo modelo para una tarea diferente pero generalmente relacionada, lo que permite volver a aplicar el conocimiento adquirido en ciclos de entrenamiento anteriores.
El aprendizaje por transferencia puede generar ahorros de eficiencia al agilizar el desarrollo de modelos. También puede ser útil cuando los datos para la tarea para la que se desarrolla el modelo son algo limitados. Sin embargo, es importante tener en cuenta que este enfoque tiene limitaciones. Los modelos que se basan en el aprendizaje por transferencia para obtener capacidades generalizadas probablemente requerirán entrenamiento con datos adicionales para un buen rendimiento en su área de enfoque.
(Ver: Ajuste fino )
Los pesos son fundamentales para el entrenamiento de IA, ya que determinan cuánta importancia (o peso) se le da a diferentes características (o variables de entrada) en los datos utilizados para entrenar el sistema, lo que da forma al resultado del modelo de IA.
En otras palabras, las ponderaciones son parámetros numéricos que definen lo más relevante en un conjunto de datos para la tarea de entrenamiento dada. Cumplen su función aplicando la multiplicación a las entradas. El entrenamiento del modelo suele comenzar con ponderaciones asignadas aleatoriamente, pero a medida que avanza el proceso, estas se ajustan a medida que el modelo busca obtener una salida que se acerque más al objetivo.
Por ejemplo, un modelo de IA para predecir precios de viviendas entrenado con datos inmobiliarios históricos para una ubicación objetivo podría incluir ponderaciones para características tales como la cantidad de habitaciones y baños, si una propiedad es independiente o adosada, si tiene estacionamiento, garaje, etc.
En última instancia, los pesos que el modelo asigna a cada una de estas entradas reflejan cuánto influyen en el valor de una propiedad, según el conjunto de datos dado.
techcrunch