Cada vez es más común que las organizaciones de distintas industrias incorporen modelos de inteligencia artificial generativa para potenciar sus aplicaciones. Con la llegada de nuevos modelos como los de DeepSeek, la personalización de estos modelos de fundación (FMs) se ha convertido en una necesidad crucial para satisfacer las demandas específicas de cada sector.
El principal desafío radica en la personalización efectiva de estos modelos de DeepSeek, mientras se gestionan de manera eficiente los recursos computacionales. Ajustar la arquitectura del modelo requiere un alto nivel de habilidad técnica y experiencia para entrenar y ajustar parámetros, lo que a menudo obliga a las organizaciones a elegir entre el rendimiento del modelo y las limitaciones prácticas de implementación. Esto ha generado una demanda crítica de soluciones más accesibles que simplifiquen la personalización de modelos.
En una serie reciente de artículos, se explora cómo reducir la complejidad de personalizar los modelos de DeepSeek utilizando flujos de trabajo de ajuste fino preconstruidos, conocidos como «recetas», disponibles para el modelo DeepSeek-R1 y sus variaciones destiladas en el entorno de Amazon SageMaker HyperPod. La primera parte de esta serie presenta una arquitectura de solución para ajustar modelos destilados de DeepSeek-R1, utilizando como ejemplo concreto la personalización del modelo DeepSeek-R1 Distill Qwen 7b. Gracias al uso de Amazon SageMaker HyperPod, se han logrado mejoras significativas, alcanzando un promedio del 25% en todas las puntuaciones ROUGE y un notable 49% en la puntuación ROUGE-2.
La disponibilidad reciente de recetas de Amazon SageMaker HyperPod permite a científicos de datos y desarrolladores, independientemente de su nivel de habilidad, comenzar a entrenar y ajustar modelos de IA generativa en cuestión de minutos. Estas recetas facilitan tareas esenciales, como la carga de conjuntos de datos de entrenamiento y la aplicación de técnicas de entrenamiento distribuido, eliminando gran parte del trabajo tedioso que tradicionalmente acompaña a la experimentación con modelos.
Gracias a su diseño modular, la arquitectura ofrece escalabilidad y flexibilidad, siendo particularmente eficaz para entrenar modelos de lenguaje de gran tamaño que requieren capacidad de computación distribuida. Nuevas recetas han sido liberadas para ayudar a los clientes a utilizar de manera rápida y rentable los modelos de DeepSeek, aplicando técnicas de ajuste fino supervisado y adaptaciones de bajo rango.
En un caso práctico del sector salud, se destaca un uso innovador para crear una aplicación de asistencia médica que traduzca información compleja en términos amigables para el paciente. El ajuste fino del modelo DeepSeek-R1 Distill Qwen 7b, utilizando un conjunto de datos médico específico, es crucial para asegurar que las respuestas estén alineadas con el rigor clínico necesario.
Al culminar este proceso de ajuste, se observa un notable aumento en la eficiencia del modelo adaptado, alcanzando mejores puntuaciones en las métricas ROUGE. Esto sugiere que extensiones futuras en el tiempo de entrenamiento podrían ofrecer incluso mayores mejoras en rendimiento. Esta serie no solo resalta la innovación en la personalización de IA, sino también el potencial de optimizar el uso de recursos computacionales en entornos empresariales.