Ejecutar DeepSeek-V4-Flash en AMD MI300X…

Son las 3:14 de la madrugada. Un desarrollador fija la mirada en un log de instalación de ROCm que parece un muro de texto rojo, preguntándose por qué no se gastó el dinero en una H100 y ya está. El objetivo era sencillo: hacer que el nuevo DeepSeek-V4-Flash funcionara en un AMD MI300X sin pasar los próximos tres fines de semana reescribiendo kernels. Este es el ritual del entusiasta de los pesos locales: la disposición a soportar una miseria absoluta por evitar una API propietaria.

El reciente informe sobre la llegada de DeepSeek-V4-Flash al MI300X confirma lo que ya sospechábamos sobre el estado actual de la guerra del hardware. El MI300X es una bestia sobre el papel y, cuando el software finalmente coopera, lo es. Estamos viendo un cambio donde la ventaja bruta de VRAM de AMD (192 GB en el MI300X) empieza a pesar más que la comodidad de que «simplemente funciona» del ecosistema de NVIDIA. Para un modelo como V4-Flash, que utiliza una arquitectura de Mezcla de Expertos (MoE) para mantener la inferencia ligera, tener ese margen extra marca la diferencia entre ejecutar una ventana de contexto masiva y toparse constantemente con errores de OOM.

La realidad es que la fricción de software es el verdadero impuesto que pagamos por alejarnos de CUDA. Incluso con vLLM haciendo el trabajo pesado, lograr que estos modelos se comporten en hardware no NVIDIA se siente como intentar meter una cafetera profesional en la cocina diminuta de un piso: técnicamente cabe, pero tienes que mover la nevera y el cubo de la basura solo para hacer una taza de café. ¿Por qué seguimos haciéndonos esto? Probablemente porque la alternativa es pagar por token a una empresa que mañana podría cambiar el sistema de prompts y romper todos los nuestros.

Al comparar DeepSeek-V4-Flash con el resto del paquete de pesos abiertos, la propuesta de valor es clara. Mientras Llama 3.3 70B es el caballo de batalla fiable y Qwen3 está empujando los límites de la lógica multilingüe, la serie «Flash» de DeepSeek se centra en el throughput. Está diseñada para pipelines de alta velocidad. En un equipo como el MI300X, los números de tokens por segundo son impresionantes, pero la verdadera victoria es la capacidad de alojar múltiples instancias o cachés KV masivas sin dar guerra.

La licencia sigue siendo un punto de interés. DeepSeek se mantiene generalmente permisiva, que es la única razón por la que la comunidad de aficionados se molesta. Si de repente dieran un giro a una licencia restrictiva de «solo comercial» (y es probable que no lo hagan durante mucho tiempo), el impulso desaparecería de la noche a la mañana. Los devs no quieren preocuparse por los departamentos legales cuando solo intentan construir un asistente de código local que no filtre sus datos a un proveedor en la nube.

Aquí es exactamente donde se nos va todo al traste para el usuario doméstico. El MI300X es una bestia empresarial y la mayoría de nosotros seguimos aferrados a nuestras 3090 y 4090. Para el grupo de los 24 GB de VRAM, la denominación «Flash» es una tentación a menos que ejecutes versiones altamente cuantizadas. Hablamos de GGUF Q4_K_M o EXL2 si quieres ver algo que se parezca a una velocidad aceptable. Si lo ejecutas vía Ollama o llama.cpp en un Mac M3 Ultra, estás en la zona justa, pero la gente de GPU en Windows/Linux sigue peleándose por cada megabyte.

La brecha entre «se ejecuta» y «es utilizable» es amplia. Para que V4-Flash se sienta ágil en hardware de consumo, necesitamos que la comunidad de cuantización haga lo suyo. Para el Q4, veremos un GGUF optimizado que lleve los tokens por segundo en una 4090 a un rango que tenga sentido para agentes en tiempo real. Hasta entonces, los resultados del MI300X son básicamente un vistazo a un futuro donde no estamos sujetos a un único fabricante de chips.

AMD por fin está en la sala, pero sigue tropezando con la alfombra.

Cobertura relacionada

OpenAI Contrata a un Ejecutivo de Vision Pro de Apple para Crear su División de Hardware

La placa Coral de Google: ejecución local de Gemma 3 y la brecha de hardware

LetinAR y el cuello de botella de hardware de las gafas de IA

Los límites físicos de la IA: Redes eléctricas y restricciones térmicas