Son las 3:14 de la madrugada. Un desarrollador mira fijamente la ventana de un terminal, viendo cómo el modelo Llama 3.1 70B se estrella por quinta vez porque intentó meterlo en una RTX 3090 de 24 GB. Ha probado cada truco de cuantización que existe en el manual—GGUF, EXL2, lo que sea—pero las matemáticas simplemente no le salen a uno. No puedes meter un piano de cola en un estudio, por mucho que intentes comprimir las patas. Este es el muro de VRAM, y para la mayoría de nosotros ha sido el techo infranqueable de la IA local durante años.

La jugada de la memoria compartida es la única parte de este anuncio que realmente importa. Durante mucho tiempo, Nvidia se ha conformado con dejar que Apple Silicon domine el espacio de los modelos grandes con huella reducida, porque la arquitectura de memoria unificada de Apple permite que la GPU acceda directamente a la RAM del sistema. Si tienes un Mac Studio con 192 GB de RAM, puedes ejecutar modelos masivos que harían que una 4090 gritara de dolor. Al combinar el CPU Grace y la GPU Blackwell con un pool compartido de 128 GB, Nvidia está reconociendo por fin que la división tradicional entre VRAM y RAM del sistema es un cuello de botella para la inferencia local. ¿Quién quiere realmente pagar una suscripción mensual solo para mantener sus datos en una nube que no le pertenece?

Luego está el enfoque en FP4. Aunque la cifra de 1.000 TOPS suene a puro marketing, el giro hacia la precisión FP4 es una señal clara. Si vemos un soporte hardware generalizado para FP4, la jerarquía del open-weights cambiará. No solo hablamos de ejecutar Llama 3.3 70B; hablamos de hacerlo con velocidad real. Si los pesos están optimizados para este hardware, podríamos ver tasas de tokens por segundo que harán que las configuraciones locales actuales parezcan una conexión dial-up. (Aunque sospecho que el soporte real de los drivers será un desastre en el lanzamiento). Como señala el informe de The Decoder, el objetivo aquí es hacer que los agentes locales sean prácticos. Para que un agente sea útil, necesita una ventana de contexto amplia y un modelo de alto parámetro para evitar el comportamiento de bucle típico de los modelos más pequeños de 8B.

Pero hay un pero: no es una GPU que puedas simplemente enchufar a tu equipo actual. Esto es una reestructuración sistémica. El RTX Spark es un paso hacia una arquitectura cerrada e integrada: básicamente, la macificación del portátil con Windows. Para obtener esos 128 GB de memoria compartida, tienes que comprar el paquete completo. Esto genera una fricción extraña para el aficionado. Nos encantan nuestras 4090 porque encajan en una placa base que ya tenemos. Ahora, Nvidia está vendiendo un mundo donde compras un portátil especializado para conseguir el ancho de banda de memoria necesario para agentes locales. Es una jugada audaz, pero asume que los devs están dispuestos a abandonar sus montajes personalizados por un híbrido Arm/Blackwell precocinado.

La verdadera prueba será el ecosistema de software. Si estas máquinas se lanzan sin un soporte de primera clase para Ollama, llama.cpp o vLLM, no serán más que ladrillos caros con pegatinas de lujo. Sin embargo, si la optimización de CUDA para FP4 es tan ajustada como afirma Nvidia, la brecha de rendimiento entre una máquina Spark local y una instancia en la nube H100 para inferencia de un solo usuario se reducirá drásticamente. Para el cuarto trimestre del año que viene, el portátil de agente local será el principal símbolo de estatus para los devs, desplazando al MacBook Pro como el estándar de oro para el ML en dispositivo.

Nvidia por fin ha dejado de fingir que 24 GB de VRAM son suficientes para un desarrollador serio.