Últimas

180 noticias en el archivo

MisoTTS: Analizando el modelo de texto a voz emotivo de 8B parámetros

Un análisis de la arquitectura de 8B parámetros de MisoTTS, su implementación de RVQ y las implicaciones de su lanzamiento de pesos abiertos para el TTS local.

4 jun 2026 · 3 min de lectura

Modelos

Google Gemma 4 12B: El equilibrio ideal para el despliegue de LLMs locales

El nuevo modelo de 12B de Google apunta al hueco entre los modelos de 8B y 70B, ofreciendo altas capacidades de razonamiento para dispositivos con 16 GB de RAM.

3 jun 2026 · 3 min de lectura

Investigación

AURA: Resolviendo el problema del KV Cache para la IA Corporizada Continua

AURA introduce una memoria con gating de acción para evitar el desbordamiento de VRAM en robots, permitiendo que las políticas a largo plazo se ejecuten de forma indefinida sin crashear ni alucinar.

3 jun 2026 · 3 min de lectura

Hardware

Ejecutar DeepSeek-V4-Flash en AMD MI300X: Desafíos de hardware y software

Un análisis del rendimiento y la fricción de software implicados en desplegar DeepSeek-V4-Flash en la GPU MI300X de AMD en comparación con el hardware de consumo.

3 jun 2026 · 3 min de lectura

Investigación

Reducir la latencia de contexto largo en LLMs con Terminación Adaptativa en Tiempo de Ejecución

Explora cómo la Terminación Adaptativa en Tiempo de Ejecución (ART) reduce los cuellos de botella del ancho de banda de memoria para mejorar el rendimiento de tokens durante la inferencia de LLMs con contexto largo.

2 jun 2026 · 3 min de lectura

Modelos

Qwen3.7-Plus de Alibaba: Analizando los requisitos de hardware y las capacidades de razonamiento

Un análisis de las capacidades multimodales de Qwen3.7-Plus, las exigencias de VRAM de su motor de razonamiento y las implicaciones de su licencia para los desarrolladores.

2 jun 2026 · 3 min de lectura

Investigación

BitsMoE: Reduciendo los requisitos de VRAM para modelos de Mezcla de Expertos

BitsMoE utiliza la energía espectral para guiar una asignación de bits no uniforme, lo que potencialmente permitiría que modelos MoE masivos quepan en GPUs de consumo.

2 jun 2026 · 3 min de lectura

Hardware

Nvidia RTX Spark: Rompiendo el muro de VRAM para agentes de IA locales

La nueva arquitectura RTX Spark de Nvidia combina memoria compartida y precisión FP4 para habilitar modelos de IA locales de alto parámetro en portátiles con Windows.

1 jun 2026 · 3 min de lectura

Modelos

MiniMax M3: La realidad de las ventanas de contexto de un millón de tokens en modelos de pesos abiertos

Un análisis de las limitaciones de hardware y los desafíos de calidad de recuperación que enfrenta la ventana de contexto de un millón de tokens de MiniMax M3 para su despliegue local.

1 jun 2026 · 3 min de lectura

Industria

Odysseus: Superando la interfaz de chat hacia un espacio de trabajo de IA local

Un vistazo a Odysseus, un espacio de trabajo de IA autoalojado que sustituye la burbuja de chat tradicional por una interfaz centrada en documentos para mejorar la productividad.

1 jun 2026 · 3 min de lectura