Ejecutando Modelos DeepSeek R1 de Running Distilled Localmente en PCs Copilot+ con Windows Copilot Runtime

Silvia Pastor

La inteligencia artificial continúa avanzando a pasos agigantados, y los PCs Copilot+ están a la vanguardia de esta transformación. Recientemente, se ha puesto a disposición el modelo DeepSeek R1 en Azure AI Foundry, introduciendo versiones optimizadas para unidades de procesamiento neural (NPU) que se integran directamente en estos dispositivos. Inicialmente, el lanzamiento está programado con el Qualcomm Snapdragon X, seguido por Intel Core Ultra 200V y otros. El primer modelo disponible es el DeepSeek-R1-Distill-Qwen-1.5B, accesible en el AI Toolkit, con variantes de 7B y 14B en camino.

Estas versiones optimizadas permiten a los desarrolladores construir y desplegar aplicaciones de IA que operan de manera eficiente en el dispositivo, maximizando las capacidades de las NPUs en los PCs Copilot+. Estas unidades proporcionan un motor extremadamente eficaz para la inferencia de modelos, abriendo un nuevo paradigma donde la IA generativa no solo se activa bajo demanda, sino que ofrece servicios en funcionamiento semi-continuo. Esto permite a los desarrolladores utilizar motores de razonamiento potentes y crear experiencias proactivas y sostenidas.

El progreso en Phi Silica ha sido fundamental, logrando un inferenciamento altamente eficiente con tiempos competitivos para el primer token y tasas de rendimiento, minimizando el impacto en la duración de la batería y el consumo de recursos del PC. Los modelos DeepSeek, optimizados para la NPU, integran aprendizajes clave de este trabajo, como la separación de las distintas partes del modelo para equilibrar rendimiento y eficiencia, y el uso de cuantización de baja tasa de bits.

Los desarrolladores pueden comenzar a probar DeepSeek en sus PCs Copilot+ descargando la extensión de AI Toolkit para Visual Studio Code. Esto les permitirá acceder al catálogo de modelos DeepSeek optimizados en formato ONNX QDQ y explorar fácilmente su rendimiento. También pueden probar el modelo fuente alojado en la nube a través de Azure Foundry.

En términos de optimizaciones de silicio, el modelo Qwen 1.5B incluye un tokenizador, una capa de incrustación, un modelo de procesamiento de contexto, un modelo de iteración de tokens y una cabeza de lenguaje. Se emplean técnicas avanzadas de cuantización, enfatizando en optimizar las operaciones que requieren mayor acceso a la memoria en la CPU, mientras que los bloques de transformación intensivos en computación son manejados por la NPU.

El resultado es un modelo extremadamente rápido y eficiente, con un tiempo de respuesta de 130 ms y una tasa de rendimiento de 16 tokens por segundo en respuestas cortas. Esto es posible gracias a un diseño de ventana deslizante que optimiza su rendimiento y un esquema de cuantización innovador que mejora notablemente la precisión comparado con métodos anteriores.

Con estas capacidades avanzadas, los usuarios podrán interactuar con modelos de IA de última generación completamente a nivel local, redefiniendo el desarrollo y uso de aplicaciones de inteligencia artificial en dispositivos personales.