En los últimos años, los avances en inteligencia artificial generativa han propiciado el desarrollo de una nueva generación de asistentes de inteligencia artificial conversacional, potenciados por modelos de base (FMs, por sus siglas en inglés). Estos sofisticados asistentes permiten interacciones en tiempo real, ya sea por texto o mediante la voz, destacando por su capacidad para responder de manera natural a las conversaciones humanas. Su versatilidad ha encontrado aplicaciones en diversos sectores, desde el servicio al cliente y la atención médica, hasta la educación y la productividad tanto personal como empresarial.
La mayoría de estas innovaciones se implementan directamente en dispositivos de uso común como teléfonos inteligentes, tabletas o computadoras de escritorio. De esta manera, se asegura un procesamiento local rápido de las entradas de voz o texto. No obstante, el núcleo que permite la comprensión del lenguaje natural y la generación de respuestas habitualmente se encuentra en la nube, haciendo uso de potentes unidades de procesamiento gráfico (GPUs). Este diseño permite que cuando un usuario interactúa con el asistente, su dispositivo procese localmente las entradas, incluyendo la conversión de voz a texto en agentes de voz, y envíe el aviso a la FM en la nube. Allí, el modelo analiza el aviso y genera la respuesta que es retransmitida al dispositivo del usuario. Este flujo de trabajo busca un equilibrio entre el poder de las FM en la nube y la rapidez de la interacción local.
Sin embargo, uno de los grandes retos de estas aplicaciones es reducir la latencia de respuesta para lograr interacciones naturales en tiempo real. Este tiempo, que transcurre entre la intervención del usuario y la respuesta del asistente, comprende la latencia de procesamiento en el dispositivo y el tiempo hasta el primer token (TTFT), indicado por el intervalo desde el envío del aviso hasta la recepción del primer token de respuesta. Optimizar esta latencia resulta esencial para mejorar la experiencia del usuario con las interfaces de inteligencia artificial conversacional.
Para atenuar el impacto de la latencia de la red, se propone una arquitectura híbrida que extienda los servicios de AWS desde regiones más amplias hacia ubicaciones más cercanas a los usuarios. Esto implica el uso de puntos de entrada adicionales para la inferencia en los servicios de borde de AWS, utilizando estrategias de enrutamiento dinámico que distribuyen el tráfico entre la nube y las zonas locales. De esta forma, se aseguran tiempos de respuesta rápidos acordes a las condiciones de la red y la ubicación del usuario.
Las zonas locales de AWS, una innovadora forma de infraestructura de borde que acerca ciertos servicios a grandes poblaciones, permiten aplicaciones que requieren latencias muy bajas o procesamiento de datos local. Estas zonas facilitan la implementación de modelos de inteligencia artificial que demandan un rendimiento óptimo, y resultan más eficientes y rentables al ser adaptados para tareas específicas.
A través de pruebas comparativas, se ha evidenciado que el despliegue de modelos de FM en estas zonas locales reduce significativamente la latencia, un factor crucial para aplicaciones en tiempo real como los asistentes de inteligencia artificial conversacional. Los resultados reflejaron mejoras notables en la latencia de respuesta al usar estas zonas, en comparación con las configuraciones tradicionales en regiones de nube, lo que permite alcanzar tiempos de respuesta óptimos necesarios para interacciones acústicamente naturales, independientemente de la ubicación del usuario.
Finalmente, es esencial gestionar cuidadosamente los recursos creados durante el proceso para evitar costos innecesarios y seguir las mejores prácticas en la arquitectura de soluciones basadas en la nube. Las zonas locales de AWS representan un avance significativo en la mejora de la experiencia del usuario y la optimización del rendimiento de aplicaciones de inteligencia artificial conversacional.