Seleccione idioma

Spanish

Down Icon

Seleccione país

England

Down Icon

QwenLong-L1 resuelve el desafío del razonamiento de contexto largo que desconcierta a los LLM actuales

QwenLong-L1 resuelve el desafío del razonamiento de contexto largo que desconcierta a los LLM actuales

Únase a nuestros boletines diarios y semanales para recibir las últimas novedades y contenido exclusivo sobre la cobertura líder en IA del sector. Más información.

Alibaba Group ha presentado QwenLong-L1 , un nuevo marco que permite a los modelos de lenguaje de gran tamaño (LLM) razonar sobre entradas extremadamente largas. Este desarrollo podría impulsar una nueva ola de aplicaciones empresariales que requieren que los modelos comprendan y extraigan información de documentos extensos, como presentaciones corporativas detalladas, estados financieros extensos o contratos legales complejos.

Los avances recientes en los modelos de razonamiento a gran escala (MLR), en particular mediante el aprendizaje por refuerzo (AR), han mejorado significativamente su capacidad para resolver problemas. Las investigaciones demuestran que, al entrenarse con el ajuste fino del AR, los MLR adquieren habilidades similares al pensamiento lento humano, lo que les permite desarrollar estrategias sofisticadas para abordar tareas complejas.

Sin embargo, estas mejoras se observan principalmente cuando los modelos trabajan con fragmentos de texto relativamente cortos, típicamente alrededor de 4000 tokens. La capacidad de estos modelos para escalar su razonamiento a contextos mucho más extensos (p. ej., 120 000 tokens) sigue siendo un desafío importante. Este razonamiento extenso requiere una comprensión sólida de todo el contexto y la capacidad de realizar análisis de múltiples pasos. «Esta limitación supone una barrera significativa para las aplicaciones prácticas que requieren interacción con conocimiento externo, como la investigación profunda, donde los LRM deben recopilar y procesar información de entornos con un alto nivel de conocimiento», escriben los desarrolladores de QwenLong-L1 en su artículo .

Los investigadores formalizan estos desafíos en el concepto de "reafirmación del razonamiento de contexto largo". A diferencia del razonamiento de contexto corto, que a menudo se basa en el conocimiento ya almacenado en el modelo, la reafirmación del razonamiento de contexto largo requiere que los modelos recuperen y fundamenten con precisión la información relevante de entradas extensas. Solo así pueden generar cadenas de razonamiento basadas en esta información incorporada.

Entrenar modelos para esto mediante RL es complejo y, a menudo, resulta en un aprendizaje ineficiente y procesos de optimización inestables. Los modelos tienen dificultades para converger en buenas soluciones o pierden su capacidad de explorar diversas vías de razonamiento.

QwenLong-L1 es un marco de aprendizaje por refuerzo diseñado para ayudar a los LRM a pasar de la competencia con textos cortos a una generalización robusta en contextos largos. El marco mejora los LRM existentes en contextos cortos mediante un proceso cuidadosamente estructurado y de varias etapas:

Ajuste Fino Supervisado (SFT) de Calentamiento: El modelo primero pasa por una fase de SFT, donde se entrena con ejemplos de razonamiento de contexto extenso. Esta etapa establece una base sólida que permite al modelo fundamentar la información con precisión a partir de entradas extensas. Ayuda a desarrollar capacidades fundamentales para comprender el contexto, generar cadenas de razonamiento lógico y extraer respuestas.

Aprendizaje Reforzado por Fases Guiado por el Currículo: En esta etapa, el modelo se entrena mediante múltiples fases, con un aumento gradual en la longitud objetivo de los documentos de entrada. Este enfoque sistemático, paso a paso, ayuda al modelo a adaptar de forma estable sus estrategias de razonamiento de contextos más cortos a contextos progresivamente más largos. Evita la inestabilidad que suele observarse cuando los modelos se entrenan bruscamente con textos muy largos.

Muestreo retrospectivo con enfoque en la dificultad: La etapa final de entrenamiento incorpora ejemplos desafiantes de las fases de entrenamiento anteriores, lo que garantiza que el modelo siga aprendiendo de los problemas más complejos. Esto prioriza las instancias difíciles y anima al modelo a explorar vías de razonamiento más diversas y complejas.

Proceso QwenLong-L1 (fuente: arXiv)
Proceso QwenLong-L1 Fuente: arXiv

Además de este entrenamiento estructurado, QwenLong-L1 también utiliza un sistema de recompensas específico. Mientras que el entrenamiento para tareas de razonamiento en contextos cortos suele basarse en recompensas estrictas basadas en reglas (p. ej., una respuesta correcta en un problema matemático), QwenLong-L1 emplea un mecanismo de recompensa híbrido. Este combina la verificación basada en reglas, que garantiza la precisión al verificar el estricto cumplimiento de los criterios de corrección, con un modelo de LLM como juez . Este modelo de juez compara la semanticidad de la respuesta generada con la verdad fundamental, lo que permite mayor flexibilidad y un mejor manejo de las diversas maneras en que se pueden expresar las respuestas correctas al trabajar con documentos extensos y con matices.

El equipo de Alibaba evaluó QwenLong-L1 utilizando la función de preguntas y respuestas de documentos (DocQA) como tarea principal. Este escenario es muy relevante para las necesidades empresariales, donde la IA debe comprender documentos densos para responder preguntas complejas.

Los resultados experimentales de siete pruebas de referencia de DocQA de contexto largo demostraron las capacidades de QwenLong-L1. Cabe destacar que el modelo QWENLONG-L1-32B (basado en DeepSeek-R1-Distill-Qwen-32B ) logró un rendimiento comparable al de Claude-3.7 Sonnet Thinking de Anthropic y superó a modelos como o3-mini y Qwen3-235B-A22B de OpenAI. El modelo más pequeño, QWENLONG-L1-14B, también superó a Gemini 2.0 Flash Thinking de Google y a Qwen3-32B.

Fuente: arXiv
Fuente: arXiv

Un hallazgo importante, relevante para aplicaciones en el mundo real, es cómo el entrenamiento de RL resulta en que el modelo desarrolle comportamientos especializados de razonamiento de contexto largo. El artículo señala que los modelos entrenados con QwenLong-L1 mejoran en la "fundamentación" (vincular las respuestas con partes específicas de un documento), el "establecimiento de subobjetivos" (desglosar preguntas complejas), el "retroceso" (reconocer y corregir sus propios errores durante el razonamiento) y la "verificación" (verificar sus respuestas dos veces).

Por ejemplo, mientras que un modelo base podría distraerse con detalles irrelevantes en un documento financiero o atascarse en un bucle de sobreanálisis de información irrelevante, el modelo entrenado con QwenLong-L1 demostró capacidad para una autorreflexión eficaz. Pudo filtrar con éxito estos detalles distractores, desviarse de caminos erróneos y llegar a la respuesta correcta.

Técnicas como QwenLong-L1 podrían ampliar significativamente la utilidad de la IA en las empresas. Entre sus posibles aplicaciones se incluyen la tecnología legal (análisis de miles de páginas de documentos legales), las finanzas (investigación exhaustiva de informes anuales y presentaciones financieras para la evaluación de riesgos o la generación de oportunidades de inversión) y la atención al cliente (análisis de largos historiales de interacción con los clientes para brindar un soporte más informado). Los investigadores han publicado el código de la receta de QwenLong-L1 y las ponderaciones de los modelos entrenados .

Perspectivas diarias sobre casos de uso empresarial con VB Daily

Si quieres impresionar a tu jefe, VB Daily te tiene cubierto. Te ofrecemos información exclusiva sobre lo que las empresas están haciendo con la IA generativa, desde cambios regulatorios hasta implementaciones prácticas, para que puedas compartir tus conocimientos y maximizar el retorno de la inversión.

Lea nuestra Política de Privacidad

Gracias por suscribirte. Consulta más boletines de VB aquí .

Se produjo un error.

venturebeat

venturebeat

Noticias similares

Todas las noticias
Animated ArrowAnimated ArrowAnimated Arrow