En la actualidad, el interés por adoptar la inteligencia artificial (IA) y el aprendizaje automático (ML) está en auge, llevando a las organizaciones a enfrentar el reto de maximizar el rendimiento de sus modelos sin exceder los presupuestos asignados. Recientemente, un cliente que se especializa en soluciones de inteligencia de video basadas en los modelos YOLOv8, se encontró en esta situación y decidió solicitar la asistencia de Automat-it, un socio Premier de AWS, para desarrollar e implementar una plataforma en la nube de AWS con Elastic Kubernetes Service (EKS).
El objetivo principal de esta colaboración fue alcanzar una escalabilidad y rendimiento óptimos, al mismo tiempo que se mantenían los costos bajo control. Inicialmente, cada modelo de IA requería una instancia dedicada de GPU, lo que generaba un uso ineficiente de los recursos y resultaba en altos costos operativos. El desafío era lograr que el costo de infraestructura en AWS no superase los 30 dólares por cámara al mes, y asegurar que el procesamiento no excediera los 500 milisegundos.
En un primer intento por resolver estos problemas, se decidió por una arquitectura cliente-servidor que separó las etapas de procesamiento. Sin embargo, los costos seguían siendo considerables, alcanzando los 353,03 dólares mensuales por cámara. Aunque los resultados en términos de rendimiento fueron satisfactorios, fue imprescindible buscar alternativas para optimizar aún más el sistema.
Automat-it propuso un cambio en la arquitectura hacia un sistema de “time slicing” de GPU. Esta solución permitía que los modelos de IA compartieran una sola GPU, lo cual incrementó la eficiencia en el uso de los recursos. Esta estrategia fue implementada en el clúster de EKS utilizando el plugin de NVIDIA para Kubernetes, lo que facilitó la escalabilidad y redujo la carga operativa.
Después de varias etapas de prueba y ajustes de configuración, se consiguió una significativa reducción de costos. Finalmente, el costo por cámara se disminuyó a 27,81 dólares, representando una reducción de más de doce veces comparado con el enfoque inicial, sin comprometer el rendimiento de los modelos.
Este caso destaca cómo las empresas pueden optimizar sus recursos en entornos de inteligencia artificial, logrando no solo reducir costos, sino también mantener un servicio de alta calidad para cumplir con las expectativas de sus clientes. La combinación de enfoques modernos y tecnología en la nube ha demostrado su eficacia para mejorar la eficiencia operativa en el manejo de modelos de IA.