Ollama Desencadena la Bestia de la IA en Apple Silicon: Una Revolución de Rendimiento con MLX y NVFP4

Ollama lanza su versión 0.19, una actualización clave para Apple Silicon que integra el framework MLX de Apple y el formato NVFP4 de NVIDIA. Esta combinación permite un rendimiento sin precedentes en chips M5, alcanzando 1851 tokens/s en prellenado y 134 tokens/s en decodificación. La actualización también mejora la eficiencia de la caché y se recomienda para Macs con más de 32 GB de RAM.

POR Análisis Profundo

martes, 31 de marzo de 2026

Ollama ha desatado una revolución silenciosa en Apple Silicon: la integración de MLX promete una aceleración sin precedentes para la IA local, redefiniendo la eficiencia y la capacidad de respuesta en tareas críticas.

Desde Cupertino, la plataforma líder para ejecutar modelos de lenguaje grandes (LLM) en entornos locales, Ollama, ha anunciado su versión 0.19, una actualización que marca un antes y un después para los usuarios de Apple Silicon. Esta iteración crucial integra el framework de aprendizaje automático MLX de Apple, diseñado meticulosamente para explotar la arquitectura de memoria unificada de los chips de la compañía, desde el M5 hasta el M5 Max. El resultado es una aceleración dramática en macOS, especialmente palpable en asistentes personales y agentes de codificación, donde la inmediatez es clave.

El Corazón de Silicio Desencadenado: MLX y la Arquitectura Unificada

La esencia de esta mejora reside en la optimización profunda que MLX confiere. Al construir Ollama sobre este framework, la plataforma ahora puede aprovechar al máximo los nuevos aceleradores neuronales de la GPU presentes en los chips M5, M5 Pro y M5 Max. Esto se traduce directamente en un salto cualitativo en dos métricas críticas: el tiempo hasta el primer token (TTFT) y la velocidad de generación de tokens por segundo. Las pruebas, realizadas el 29 de marzo de 2026 con el modelo Qwen3.5-35B-A3B de Alibaba cuantizado a NVFP4, revelaron un rendimiento de prellenado de 1851 tokens/s y una velocidad de decodificación de 134 tokens/s con cuantización int4, cifras que pulverizan las implementaciones anteriores de Ollama y establecen un nuevo estándar de rendimiento.

Precisión Inquebrantable: La Era del NVFP4 y la Paridad de Producción

Más allá de la integración con MLX, Ollama 0.19 introduce el soporte para el formato NVFP4 de NVIDIA. Este avance es fundamental, ya que permite mantener la precisión del modelo mientras se reducen drásticamente los requisitos de ancho de banda de memoria y almacenamiento para las cargas de trabajo de inferencia. La adopción de NVFP4 no solo garantiza respuestas de mayor calidad, sino que también empodera a los usuarios de Ollama para obtener resultados idénticos a los de un entorno de producción escalado, abriendo la puerta a la compatibilidad con modelos optimizados por el Model Optimizer de NVIDIA. Esta estandarización es un paso estratégico hacia la paridad de producción en el ecosistema de IA local, democratizando el acceso a capacidades antes reservadas para grandes infraestructuras.

La Memoria Inteligente al Servicio de la Productividad

Las mejoras no se limitan al procesamiento puro. Ollama ha renovado su sistema de caché para hacer las tareas de codificación y agenticas más eficientes y fluidas. La nueva caché exhibe una menor utilización de memoria al reutilizarla entre conversaciones, lo que se traduce en más aciertos de caché, especialmente al trabajar con prompts de sistema compartidos en herramientas como Claude Code. Se han implementado puntos de control inteligentes que almacenan instantáneas de la caché en ubicaciones estratégicas del prompt, reduciendo el procesamiento y acelerando las respuestas. Finalmente, una política de desalojo más inteligente asegura que los prefijos compartidos persistan por más tiempo, incluso cuando se descartan ramas más antiguas de la conversación, optimizando la continuidad del flujo de trabajo.

Esta versión preliminar de Ollama 0.19, ya disponible para descarga, se recomienda encarecidamente para Macs con más de 32 GB de memoria unificada, un requisito que subraya la ambición de la plataforma. La actualización acelera notablemente el nuevo modelo Qwen3.5-35B-A3B, con parámetros de muestreo ajustados específicamente para tareas de codificación. Ollama, en una colaboración estratégica con equipos como MLX, NVIDIA, GGML/llama.cpp y Alibaba Qwen, continúa su incansable labor para soportar futuros modelos y facilitar la importación de modelos personalizados, consolidando su posición como una herramienta indispensable para desarrolladores y entusiastas de la IA en el ecosistema de Apple.

Base Documental y Fuentes

Lecturas Relevantes

TecnologíaVerificado

El Vuelo de Ícaro: La Verdad Oculta Tras el Escudo Térmico de Artemis II

Un informe de la OIG de la NASA de mayo de 2024 reveló graves fallos en el escudo térmico de la cápsula Orion durante la misión Artemis I, contradiciendo las minimizaciones iniciales de la agencia. A pesar de una solución propuesta para Artemis II —un cambio en la trayectoria de reingreso— persisten dudas sobre la seguridad de la tripulación, en un contexto de presiones presupuestarias y de calendario que recuerdan a tragedias pasadas.

Análisis Profundo·Hace 1 h

TecnologíaVerificado

El Silencio del Código: Cómo un Troyano de Acceso Remoto Infectó Millones de Proyectos Vía Axios

Un ataque a la cadena de suministro comprometió la popular librería `axios` el 30 de marzo de 2026, mediante la publicación de dos versiones maliciosas. Los atacantes usaron una dependencia oculta para instalar un troyano multiplataforma que se autodestruía para evadir la detección. El ataque fue descubierto por herramientas de StepSecurity, destacando la necesidad crítica de monitorización y seguridad proactiva en el desarrollo de software.

Análisis Profundo·Hace 1 h

TecnologíaVerificado

El Corazón de Claude Expuesto: Una Filtración que Redefine la Seguridad en la Era de la IA

El 31 de marzo de 2026, el código fuente completo de Claude Code, la herramienta de IA de Anthropic, fue filtrado a través de un archivo 'source map' en NPM. El descubrimiento, realizado por el investigador Chaofan Shou, expuso más de 512,000 líneas de código, revelando una arquitectura de software altamente sofisticada. El incidente, causado por un error de configuración, pone de relieve las vulnerabilidades en las cadenas de suministro de software y ofrece una visión sin precedentes de la ingeniería detrás de las herramientas de IA de vanguardia.

Análisis Profundo·Hace 2 h