Los modelos de lenguaje de gran tamaño (LLMs) han transformado la generación de texto al simular respuestas humanas de manera convincente. Sin embargo, enfrentan un importante desafío: el fenómeno conocido como «alucinación». Este problema surge cuando los LLMs producen respuestas que, aunque aparentan ser creíbles, son incorrectas desde el punto de vista de los hechos. A pesar del extenso entrenamiento con grandes volúmenes de datos genéricos, estos modelos a menudo carecen del contexto específico de la organización y de información actualizada, lo que es crucial para proporcionar respuestas precisas, especialmente en el ámbito empresarial.
Las técnicas de Generación Aumentada por Recuperación (RAG) han surgido como una tentativa para resolver este problema, al conectar los LLMs con datos relevantes durante la inferencia. Sin embargo, estos modelos pueden continuar generando respuestas no precisas y, en ocasiones, fabricar información incluso cuando se les proporciona datos de origen confiables. Esto representa un riesgo considerable para las organizaciones que utilizan LLMs en aplicaciones de producción, en especial en sectores críticos como el de la salud, finanzas o servicios legales. Las alucinaciones residuales pueden derivar en desinformación, problemas legales y pérdida de confianza de los usuarios.
Para hacer frente a estos retos, se ha desarrollado una solución práctica que combina la flexibilidad de los LLMs con la fiabilidad de respuestas verificadas y curadas. Esto se logra mediante el uso de dos servicios clave de Amazon Bedrock: Bases de Conocimientos y Agentes de Amazon Bedrock. Las Bases de Conocimientos de Amazon Bedrock permiten almacenar, buscar y recuperar información específica de manera eficaz; mientras que los Agentes de Amazon Bedrock facilitan la creación, prueba y despliegue de asistentes de inteligencia artificial que comprenden las solicitudes de los usuarios y ejecutan acciones. Este sistema funciona de manera similar a un equipo de atención al cliente, que cuenta con respuestas cuidadosamente elaboradas para preguntas frecuentes. Primero, evalúan si la pregunta de un usuario coincide con las respuestas verificadas antes de que el LLM genere una nueva respuesta. Este enfoque evita alucinaciones al recurrir a información confiable siempre que sea posible, permitiendo que el LLM maneje preguntas nuevas o únicas.
La solución posee una arquitectura basada en un «cache semántico verificado», empleado mediante la API de Recuperación de Bases de Conocimiento de Amazon Bedrock, para reducir alucinaciones en las respuestas de los LLM, al tiempo que mejora la latencia y reduce costos. Este cache actúa como una capa intermedia entre el usuario y los Agentes de Amazon Bedrock, almacenando pares de preguntas y respuestas verificadas.
Al recibir una consulta de un usuario, la solución evalúa su similitud con las preguntas existentes en la base de conocimiento. Si encuentra coincidencias muy similares, devuelve la respuesta verificada sin necesidad de invocar al LLM. En casos de coincidencias parciales, las respuestas verificadas se usan como ejemplos para guiar al LLM, incrementando la precisión. Si no hay coincidencias, se procede con el procesamiento estándar del LLM.
Los beneficios incluyen la reducción de costos operativos, al minimizar las invocaciones innecesarias de LLMs, y una mejora en la precisión de las respuestas, gracias a la base de datos verificada. Además, se disminuye la latencia al proporcionar respuestas directamente desde el cache. Con el crecimiento de la base de datos de preguntas y respuestas, esta solución se vuelve más confiable y eficiente en la gestión de las consultas.
La implementación de esta técnica promete mejorar notablemente la precisión de las respuestas, acelerar los tiempos de respuesta y generar un ahorro significativo en costos. Mediante la integración de un cache semántico con LLMs, esta solución ofrece un camino sólido hacia aplicaciones de inteligencia artificial más confiables, asegurando que tanto desarrolladores novatos como profesionales experimentados cuenten con herramientas efectivas para su labor.