¿Recuerdan cuando pasamos tres semanas discutiendo si “Actúa como un experto de clase mundial” realmente cambiaba los pesos de la salida? Sentía como si estuviéramos descubriendo un lenguaje oculto, una serie de conjuros mágicos que podían persuadir a un modelo terco para que siguiera una instrucción simple. Tratábamos la caja de prompts como una cerradura que podría forjarse si solo encontrábamos la combinación correcta de adjetivos y formato.
Hay algo profundamente gracioso en la obsesión actual con los “consejos” de prompts. Hemos entrado en la era del ritual de la ingeniería de prompts, donde la gente trata una caja de texto como un instrumento de alta precisión. El artículo de Wired enumera veintiocho formas de obtener mejores resultados, y aunque el consejo es técnicamente sólido, ignora la trayectoria más amplia de la tecnología. ¿Por qué seguimos tratando esto como un apretón de manos secreto? La mayoría de estos “trucos” son solo formas de reducir la varianza en un sistema que es fundamentalmente probabilístico. Es un poco como seguir un recetario para un horno microondas que te dice “imagina que la comida se calienta uniformemente” en lugar de simplemente arreglar el magnetrón. Para un desarrollador, la varianza es el enemigo, pero fingir que un conjunto específico de adjetivos crea un “modo” permanente para la IA es un mecanismo de defensa ante el hecho de que estamos esencialmente adivinando.
La realidad es que estamos librando una batalla contra los datos de entrenamiento del modelo. Cuando le dices a un modelo que “sea un ingeniero de software senior”, no estás cambiando realmente sus capacidades; solo le estás diciendo que priorice un subconjunto específico de su distribución de entrenamiento (la parte que se parece a Stack Overflow y documentación, en lugar de la parte que se parece a un ensayo de secundaria). Esta es una solución temporal para la falta de control. (Y probablemente no por mucho tiempo). La fricción aquí no es solo intelectual; es práctica. Cada vez que inflamos un prompt con “rituales” y “personas” para garantizar calidad, aumentamos el conteo de tokens. En un entorno de producción, eso no es solo una cuestión de estética; añade latencia y cuesta dinero real cada vez que se llama a la API.
Efectivamente estamos construyendo andamiaje alrededor de un edificio que aún se está construyendo. El objetivo de cada laboratorio principal es hacer que el modelo sea “consciente de la intención”, lo que significa que la IA debería entender lo que quieres incluso si eres malo para pedirlo. A medida que los modelos evolucionen, menos importarán estos veintiocho consejos. Nos estamos moviendo hacia un mundo donde la “ingeniería” ocurre en el system prompt o a través de bucles agénticos que se autocorrigen, en lugar del trabajo manual de un humano escribiendo “piensa paso a paso” por milésima vez. Si el modelo es lo suficientemente inteligente para razonar, no debería necesitar que un humano lo tome de la mano a través de la lógica de una solicitud básica.
El “prompter profesional” será tan obsoleto como el “optimizador profesional de motores de búsqueda” de principios de los 2000 para el Q4. Dejaremos de preocuparnos por las palabras mágicas y empezaremos a enfocarnos en la lógica real del pipeline. La verdadera habilidad no está en el prompt; está en saber si la salida es realmente correcta, lo cual es un problema mucho más difícil de resolver con una lista de consejos. Actualmente estamos obsesionados con la entrada porque la salida sigue siendo una caja negra, pero una vez que tengamos marcos de evaluación confiables, el “arte” del prompt desaparecerá.
La ingeniería de prompts es solo una muleta temporal para modelos que aún no pueden leer nuestra mente.