Seleccione idioma

Spanish

Down Icon

Seleccione país

England

Down Icon

La trampa de la inferencia: cómo los proveedores de la nube están consumiendo sus márgenes de IA

La trampa de la inferencia: cómo los proveedores de la nube están consumiendo sus márgenes de IA

Este artículo forma parte del número especial de VentureBeat, «El coste real de la IA: rendimiento, eficiencia y retorno de la inversión a gran escala». Lea más en este número especial.

La IA se ha convertido en el santo grial de las empresas modernas. Ya sea para la atención al cliente o para algo tan específico como el mantenimiento de tuberías, organizaciones de todos los ámbitos están implementando tecnologías de IA, desde modelos de base hasta VLA, para aumentar la eficiencia. El objetivo es claro: automatizar tareas para obtener resultados de forma más eficiente y, al mismo tiempo, ahorrar dinero y recursos.

Sin embargo, a medida que estos proyectos pasan de la fase piloto a la de producción, los equipos se enfrentan a un obstáculo inesperado: los costes de la nube, que erosionan sus márgenes. El impacto es tan fuerte que lo que antes parecía el camino más rápido hacia la innovación y la ventaja competitiva se convierte en un agujero negro presupuestario insostenible, en un abrir y cerrar de ojos.

Esto lleva a los CIO a replantearse todo, desde la arquitectura del modelo hasta los modelos de implementación, para recuperar el control sobre los aspectos financieros y operativos. En ocasiones, incluso cierran los proyectos por completo y empiezan desde cero.

Pero aquí está la realidad: si bien la nube puede elevar los costos a niveles insostenibles, no es la mala. Solo hay que entender qué tipo de vehículo (infraestructura de IA) elegir para cada camino (la carga de trabajo).

La historia de la nube y dónde funciona

La nube es muy similar al transporte público (el metro y los autobuses). Te subes a bordo con un sencillo modelo de alquiler y te proporciona al instante todos los recursos —desde instancias de GPU hasta escalabilidad rápida en diversas geografías— para llevarte a tu destino, todo con un mínimo esfuerzo y configuración.

El acceso rápido y sencillo a través de un modelo de servicio garantiza un inicio sin inconvenientes, allanando el camino para hacer despegar el proyecto y realizar una experimentación rápida sin el enorme gasto de capital inicial que supone adquirir GPU especializadas.

La mayoría de las empresas emergentes en sus primeras etapas consideran que este modelo es lucrativo, ya que necesitan una respuesta rápida más que cualquier otra cosa, especialmente cuando todavía están validando el modelo y determinando la adecuación del producto al mercado.

Creas una cuenta, pulsas unos botones y obtienes acceso a los servidores. Si necesitas un tamaño de GPU diferente, apagas y reinicias la instancia con las nuevas especificaciones, lo que tarda minutos. Si quieres ejecutar dos experimentos a la vez, inicializas dos instancias separadas. En las primeras etapas, el objetivo es validar ideas rápidamente. Usar los marcos de escalado y experimentación integrados que ofrecen la mayoría de las plataformas en la nube ayuda a reducir el tiempo entre hitos, explicó a VentureBeat Rohan Sarin, responsable del producto de IA de voz en Speechmatics .

Si bien la nube es ideal para su uso en las etapas iniciales, los cálculos de la infraestructura se complican a medida que el proyecto pasa de las pruebas y la validación a los volúmenes reales. La magnitud de las cargas de trabajo hace que las facturas sean desorbitadas, tanto que los costos pueden dispararse más del 1000 % de la noche a la mañana.

Esto es particularmente cierto en el caso de la inferencia, que no solo tiene que funcionar las 24 horas del día, los 7 días de la semana para garantizar el tiempo de funcionamiento del servicio, sino también escalar según la demanda de los clientes.

En la mayoría de los casos, explica Sarin, la demanda de inferencia se dispara cuando otros clientes también solicitan acceso a la GPU, lo que aumenta la competencia por los recursos. En estos casos, los equipos reservan capacidad para asegurarse de obtener lo que necesitan, lo que genera tiempo de inactividad de la GPU durante las horas de menor actividad, o sufren latencias que afectan la experiencia de descarga.

Christian Khoury, director ejecutivo de la plataforma de cumplimiento de IA EasyAudit AI , describió la inferencia como el nuevo "impuesto a la nube" y le dijo a VentureBeat que ha visto a empresas pasar de $5000 a $50 000 por mes de la noche a la mañana, solo por el tráfico de inferencia.

También cabe destacar que las cargas de trabajo de inferencia que involucran LLM, con precios basados ​​en tokens, pueden generar los mayores aumentos de costos. Esto se debe a que estos modelos no son deterministas y pueden generar diferentes resultados al gestionar tareas de larga duración (que involucran grandes ventanas de contexto). Con las actualizaciones continuas, resulta muy difícil prever o controlar los costos de inferencia de LLM.

El entrenamiento de estos modelos, por su parte, suele ser intermitente (en clústeres), lo que deja margen para la planificación de la capacidad. Sin embargo, incluso en estos casos, especialmente dado que la creciente competencia obliga a un reentrenamiento frecuente, las empresas pueden incurrir en costos elevados por el tiempo de inactividad de la GPU, derivado del sobreaprovisionamiento.

Los créditos de capacitación en plataformas en la nube son caros, y el reentrenamiento frecuente durante ciclos de iteración rápidos puede incrementar los costos rápidamente. Los entrenamientos largos requieren acceso a máquinas grandes, y la mayoría de los proveedores de nube solo garantizan ese acceso si se reserva capacidad por un año o más. Si el entrenamiento solo dura unas semanas, se paga el resto del año, explicó Sarin.

Y no se trata solo de esto. La dependencia de la nube es muy real. Supongamos que ha hecho una reserva a largo plazo y ha comprado créditos a un proveedor. En ese caso, está atado a su ecosistema y tiene que usar todo lo que ofrece, incluso cuando otros proveedores se han migrado a una infraestructura más nueva y mejor. Y, finalmente, cuando pueda migrar, podría tener que pagar tarifas de salida elevadas.

No se trata solo del costo computacional. Obtienes un escalado automático impredecible y tarifas de salida desorbitadas si transfieres datos entre regiones o proveedores. Un equipo pagaba más por transferir datos que por entrenar sus modelos, enfatizó Sarin.

Dada la demanda constante de infraestructura para escalar la inferencia de IA y la naturaleza ráfaga del entrenamiento, las empresas están avanzando hacia la división de las cargas de trabajo, llevando la inferencia a la coubicación o a pilas locales, mientras que dejan el entrenamiento en la nube con instancias puntuales.

Esto no es sólo teoría: es un movimiento creciente entre los líderes de ingeniería que intentan poner la IA en producción sin gastar mucho tiempo.

Hemos ayudado a los equipos a migrar a la coubicación para la inferencia mediante servidores GPU dedicados que ellos mismos controlan. No es atractivo, pero reduce el gasto mensual en infraestructura entre un 60 % y un 80 % —añadió Khoury—. La tecnología híbrida no solo es más económica, sino también más inteligente.

En un caso, comentó, una empresa de SaaS redujo su factura mensual de infraestructura de IA de aproximadamente $42,000 a tan solo $9,000 al trasladar las cargas de trabajo de inferencia fuera de la nube. El cambio se amortizó en menos de dos semanas.

Otro equipo que necesitaba respuestas consistentes inferiores a 50 ms para una herramienta de atención al cliente con IA descubrió que la latencia de inferencia en la nube era insuficiente. Acercar la inferencia a los usuarios mediante la coubicación no solo solucionó el cuello de botella en el rendimiento, sino que también redujo el coste a la mitad.

La configuración suele funcionar así: la inferencia, siempre activa y sensible a la latencia, se ejecuta en GPU dedicadas, ya sea localmente o en un centro de datos cercano (instalación de coubicación). Mientras tanto, el entrenamiento, que consume muchos recursos computacionales pero esporádico, permanece en la nube, donde se pueden activar clústeres potentes bajo demanda, ejecutarse durante unas horas o días y luego apagarse.

En términos generales, se estima que alquilar a proveedores de nube a gran escala puede costar entre tres y cuatro veces más por hora de GPU que trabajar con proveedores más pequeños, y la diferencia es aún más significativa en comparación con la infraestructura local.

¿La otra gran ventaja? La previsibilidad.

Con stacks locales o de coubicación, los equipos también tienen control total sobre la cantidad de recursos que desean aprovisionar o agregar para la base prevista de cargas de trabajo de inferencia. Esto ofrece previsibilidad en los costos de infraestructura y elimina facturas imprevistas. Además, reduce el esfuerzo de ingeniería para ajustar el escalado y mantener los costos de la infraestructura en la nube dentro de lo razonable.

Las configuraciones híbridas también ayudan a reducir la latencia de las aplicaciones de IA sensibles al tiempo y permiten un mejor cumplimiento, en particular para los equipos que operan en industrias altamente reguladas como las finanzas, la atención médica y la educación, donde la residencia y la gobernanza de los datos no son negociables.

Como siempre ha sido el caso, la transición a una configuración híbrida conlleva un coste operativo. Configurar tu propio hardware o alquilar una instalación de coubicación lleva tiempo, y gestionar las GPU fuera de la nube requiere un tipo diferente de ingeniería.

Sin embargo, los líderes argumentan que a menudo se exagera la complejidad y que normalmente es manejable internamente o mediante apoyo externo, a menos que se opere a una escala extrema.

Nuestros cálculos muestran que un servidor GPU local cuesta aproximadamente lo mismo que alquilar una instancia equivalente de AWS, Azure o Google Cloud durante seis a nueve meses, incluso con una tarifa reservada de un año. Dado que el hardware suele durar al menos tres años, y a menudo más de cinco, esto se vuelve rentable en los primeros nueve meses. Algunos proveedores de hardware también ofrecen modelos de precios operativos para infraestructura de capital, lo que permite evitar el pago por adelantado si el flujo de caja es un problema, explicó Sarin.

Para cualquier empresa, ya sea una startup o una gran empresa, la clave del éxito al diseñar (o rediseñar) la infraestructura de IA radica en trabajar de acuerdo con las cargas de trabajo específicas en cuestión.

Si no está seguro de la carga de las diferentes cargas de trabajo de IA, comience con la nube y controle de cerca los costos asociados etiquetando cada recurso con el equipo responsable. Puede compartir estos informes de costos con todos los gerentes y analizar en profundidad lo que están usando y su impacto en los recursos. Estos datos aportarán claridad y ayudarán a impulsar la eficiencia.

Dicho esto, recuerde que no se trata de abandonar la nube por completo; se trata de optimizar su uso para maximizar la eficiencia.

La nube sigue siendo excelente para la experimentación y el entrenamiento intensivo. Pero si la inferencia es tu principal carga de trabajo, deja de lado el alquiler. La computación híbrida no solo es más económica… Es más inteligente —añadió Khoury—. Considera la nube como un prototipo, no como tu hogar permanente. Haz los cálculos. Habla con tus ingenieros. La nube nunca te dirá cuándo es la herramienta equivocada. Pero tu factura de AWS sí.

venturebeat

venturebeat

Noticias similares

Todas las noticias
Animated ArrowAnimated ArrowAnimated Arrow