Imagina a un responsable de compras en OpenAI mirando una factura trimestral de NVIDIA, preguntándose si la valoración de la empresa es en realidad solo un gran fondo de cobertura para la colección de chaquetas de cuero de Jensen Huang. Los números son absurdos. Los tiempos de espera son peores. Durante años, la estrategia ha sido simplemente tirar más H100s a cada problema, pero eventualmente, las matemáticas dejan de funcionar. Cuando tu tasa de quema comienza a parecerse al PIB de una pequeña nación, dejas de preguntar “podemos hacer esto” y empiezas a preguntar “cómo dejamos de pagar el impuesto”. Es una realización desesperada de que ninguna cantidad de financiación de capital de riesgo puede superar los márgenes de un monopolio de hardware.
Esa es la razón por la que finalmente se dio el paso hacia el silicio personalizado. Según TechCrunch, OpenAI se ha unido a Broadcom para construir su primer chip dedicado. Es la jugada clásica: dejar de pagar el impuesto de NVIDIA y empezar a poseer la pila. (Sospecho que el consejo prácticamente le suplicó a Sam que hiciera esto). Es un movimiento que señala un cambio desde el laboratorio de “solo software” hacia una empresa de infraestructura full-stack, quieran admitirlo o no. Ya no solo están construyendo modelos; están construyendo el mismo horno en el que se cocinan esos modelos.
Aquí está el problema: asociarse con Broadcom no es “independencia”. Es simplemente intercambiar una dependencia por otra. Broadcom es la fontanería del mundo de los centros de datos; proporcionan la IP y la asistencia de diseño, pero no regalan los secretos gratis. Es como un chef que decide cultivar sus propias verduras orgánicas para ahorrar dinero, solo para darse cuenta de que tiene que pagarle a un consultor especializado de riego 50.000 dólares al mes solo para mantener las plantas con vida. Has eliminado al intermediario, pero has añadido un arquitecto especializado que sabe exactamente cuánto estás desesperado. No estás escapando del vendor lock-in; solo te estás mudando a un barrio diferente con un conjunto diferente de propietarios.
Hablemos de la fricción en el mundo real. Diseñar un chip no es como actualizar una biblioteca de Python o ajustar un prompt. Un solo error en el proceso de tape-out puede quemar decenas de millones de dólares y seis meses de tiempo de desarrollo antes de que siquiera sepas si el silicio realmente arranca. Luego está el lado del software. CUDA es un foso por una razón. Mover cargas de trabajo del ecosistema de NVIDIA a un ASIC personalizado significa reescribir kernels y pelear con compiladores que probablemente no tengan una página de documentación decente. ¿Alguien cree realmente que la transición será perfecta? La cantidad de horas de ingeniería necesarias para que un chip personalizado realmente rinda en un entorno de producción a menudo es subestimada por personas que solo miran los TFLOPS en una diapositiva.
Este movimiento es lógicamente sólido pero estratégicamente desesperado. OpenAI tiene pánico al techo de cómputo. Si no pueden optimizar el hardware para las necesidades específicas de sus futuros modelos, chocarán contra un muro donde añadir más GPUs rinde rendimientos decrecientes. Poseer el silicio es la única manera de exprimir ese último 20% de eficiencia que diferencia un producto de un proyecto de investigación. Sin embargo, es una apuesta masiva bajo la idea de que las arquitecturas de modelos de mañana serán lo suficientemente estables para hornearse en hardware hoy. Si la industria se desplaza hacia un mecanismo de atención completamente diferente o una arquitectura no-transformer el próximo año, simplemente habrán construido un monumento muy caro a una idea obsoleta. O quizás no; tal vez ya han visto la próxima arquitectura y este chip está diseñado para ella.
Es un mal necesario.
Para el primer trimestre de 2027, veremos los primeros benchmarks en el mundo real que muestren que estos chips son realmente más lentos para el entrenamiento general, pero significativamente más eficientes para los patrones de inferencia específicos de los modelos de la serie O. El objetivo no es vencer al H200 en todo; es detener el sangrado en el balance y reducir la latencia del ciclo de retroalimentación. Si lo logran, el “foso de cómputo” se convierte en algo real en lugar de un término de moda en las diapositivas. Si no lo logran, simplemente habrán gastado unos pocos miles de millones de dólares en construir un pesapapeles muy caro.