tecnología

La IA ha puesto patas arriba una vieja regla de los servidores: la memoria ya no quiere vivir en cada máquina

Para muchos de nosotros, la escasez de memoria puede sonar primero a un problema cercano al consumo doméstico: módulos de RAM, componentes y dispositivos condicionados por una demanda cada vez más tensionada. Pero el fenómeno que describe The Next Platform apunta también al otro extremo de la cadena. Alcanza a las grandes tecnológicas que entrenan, despliegan y ofrecen modelos de inteligencia artificial en centros de datos. La nube no es una abstracción, y su apetito de memoria está obligando a

30 de mayo de 2026Actualizado hace menos de un minuto4 min de lectura4 lecturasComentarios

Escuchá el resumen

Exclusivo para suscriptores Premium

Desbloquear

La IA ha puesto patas arriba una vieja regla de los servidores: la memoria ya no quiere vivir en cada máquina

#ia #transporte

Lo esencial

Para muchos de nosotros, la escasez de memoria puede sonar primero a un problema cercano al consumo doméstico: módulos de RAM, componentes y dispositivos condicionados por una demanda cada vez más tensionada
Pero el fenómeno que describe The Next Platform apunta también al otro extremo de la cadena
La nube no es una abstracción, y su apetito de memoria está obligando a pensar algo que hasta hace poco parecía poco intuitivo: quizá cada máquina no deba depender solo de la RAM que lleva dentro
The Next Platform añade el caso de Enfabrica y su sistema Emfasys, pensado para inferencia y capaz, según el medio, de alcanzar 18 TB de DDR5 por servidor de memoria y 144 TB en un rack completo

La nube no es una abstracción, y su apetito de memoria está obligando a pensar algo que hasta hace poco parecía poco intuitivo: quizá cada máquina no deba depender solo de la RAM que lleva dentro. La memoria cambia de sitio. La idea de fondo es trasladar a la memoria una lógica que ya nos resulta familiar con el almacenamiento.

Hoy un dato puede vivir en el propio equipo, en otra máquina de la red o en un sistema compartido al que acceden varios servidores. La próxima generación de servidores podría tratar la RAM de una forma parecida: conservar una parte local en cada máquina, pero llevar una porción mucho mayor a grandes sistemas externos capaces de repartir capacidad según la necesidad de cada momento. De ahí sale lo que algunos llaman “memory godbox”: una gran caja o clúster de memoria que deja de estar atado a una sola máquina.

El momento de CXL. Durante años, Compute Express Link ha avanzado de forma lenta, casi como una promesa para arquitecturas más flexibles. La tecnología se presentó hace varios años, pero la presión actual de la memoria le está dando un contexto mucho más favorable.

CXL proporciona una interfaz coherente para comunicar procesadores, memoria, aceleradores y otros periféricos, apoyándose en PCIe. La idea final es sencilla de contar, aunque compleja de ejecutar: separar recursos sin romper la sensación de que trabajan juntos. CXL no llegó de golpe.

Primero sirvió para ampliar la memoria de un servidor mediante módulos conectados a ranuras PCIe compatibles. Después, con CXL 2.0, apareció el pooling, es decir, la posibilidad de reunir memoria en un fondo común y asignarla a distintas máquinas según hiciera falta. El límite era que esa memoria podía reasignarse, pero no compartirse de verdad entre dos sistemas trabajando sobre los mismos datos.

CXL 3.0 es el punto en el que esa frontera empieza a moverse, porque introduce topologías más amplias y memoria compartida entre máquinas, aunque con ciertas limitaciones técnicas. El problema de fondo. Según The Next Platform, la IA no se queda corta solo por falta de cálculo, también por falta de memoria.

La HBM que acompaña a las GPU es muy rápida y está pensada para alimentar esos chips a gran velocidad, pero su capacidad es limitada y su coste es alto. En entrenamiento, el gran reto suele estar en procesar cantidades enormes de datos para construir el modelo. En inferencia, en cambio, hablamos de otra cosa: usar ese modelo ya entrenado para responder a una petición.

La memoria de la conversación. Cada respuesta de un modelo de lenguaje se construye poco a poco, token a token. Para no recalcular todo lo anterior en cada paso, los sistemas guardan una especie de memoria de trabajo llamada KV cache.

The Next Platform explica que ahí se conservan los vectores de atención previos, que ayudan al modelo a seguir teniendo en cuenta el contexto mientras genera la respuesta. El problema es que en servicios con muchos usuarios esa caché puede crecer hasta ocupar cantidades enormes de memoria, incluso más que el propio modelo. Ya no es solo teoría.

Esta idea ya no vive solo en documentos técnicos o promesas de arquitectura. The Register menciona a Panmnesia, Liqid y UnifabriX como compañías que trabajan en sistemas para llevar memoria fuera del servidor y ponerla al alcance de varias máquinas. Algunos lo hacen con switches CXL, otros con grandes reservas de DDR5 que pueden repartirse entre distintos hosts.

The Next Platform añade el caso de Enfabrica y su sistema Emfasys, pensado para inferencia y capaz, según el medio, de alcanzar 18 TB de DDR5 por servidor de memoria y 144 TB en un rack completo. La conclusión es sencilla: la industria no solo busca más memoria, busca colocarla de otra manera para que la IA pueda aprovecharla mejor. Imágenes | Xataka con Nano Banana

Fuente: Xataka|Fuente primaria|Editado por Tempranísimo IA

Preguntale a la nota

Hacé preguntas y la IA responde usando solo este artículo

2 preguntas restantes · Respuestas basadas en el contenido del artículo

WhatsApp X Facebook Telegram

Recibí las noticias en WhatsApp

Seguí nuestro canal para recibir lo más importante del día, directo a tu celular.

Seguir canal

Comentarios

para dejar un comentario

Cargando comentarios...

Noticias Relacionadas

Tecnología

Cuáles son las nuevas inversiones inmobiliarias ganan terreno entre los ahorristas

Hernán Resnicoff, CEO de Lendar, analiza cómo ahora los invrersores priorizan alternativas que permiten obtener flujo de ingreso mensual y previsibilidad

iProUPhace alrededor de 2 horas3 min3

Tecnología

OpenAI se asocia con Plaid para dar asesoría financiera personalizada

Los consumidores recurren cada vez más a modelos de lenguaje de gran escala como ChatGPT para obtener asesoría financiera

Perfilhace alrededor de 2 horas3 min3

Tecnología

Atención, usuarios de Android: Google lanzó un parche de seguridad urgente para smartphones

TNhace alrededor de 3 horas2 min3

Tecnología

La UE quiso que elegir navegador fuera más fácil: Mozilla acaba de revelar cuántas veces fue elegido Firefox

Durante años, elegir navegador ha sido una de esas decisiones que parecían estar en nuestras manos, pero que en la práctica venían bastante condicionadas por el dispositivo que sacábamos de la caja. En el iPhone estaba Safari. En muchos móviles Android, Chrome. Y aunque siempre hemos podido instalar alternativas, lo cierto es que cambiar un ajuste escondido no es lo mismo que recibir una pregunta clara en el momento adecuado. Esa es precisamente la grieta que la Ley de Mercados Digitales (DMA) h

Xatakahace alrededor de 4 horas3 min4

Más de Tecnología Ver todas las noticias