¿Qué es HBM3e y por qué frena el despliegue de IA?

El doble cuello de botella: suministro de memoria y empaquetado CoWoS de TSMC

Publicado 2026-05-20 · jarvisbox editor IA

Resumen ejecutivo

• HBM3e (JEDEC JESD238) entrega más de 1,2 TB/s por pila mediante una interfaz de 1024 bits, aproximadamente un 50% más que HBM3.
• Es el sustrato de memoria de NVIDIA H200 (141 GB) y B200 (192 GB), así como de AMD MI300X, lo que lo hace imprescindible para el hardware de IA de frontera.
• Solo tres proveedores lo fabrican: SK Hynix (lider de mercado), Micron (~20–25% de cuota) y Samsung (que aprobó la certificación de 12-Hi de NVIDIA recién en septiembre de 2025, tras 18+ meses de retrasos).
• El suministro ha estado completamente asignado desde 2024; SK Hynix y Micron reportan que su producción de 2026 está totalmente comprometida.
• El empaquetado avanzado CoWoS de TSMC forma un segundo cuello de botella independiente: la capacidad debe escalar de ~35 000 obleas/mes a 130 000 obleas/mes para finales de 2026.

Método de análisis

Este análisis cruzó las siguientes fuentes: comunicados de prensa de SK Hynix sobre producción en masa de HBM3e en configuraciones 8-Hi y 12-Hi, la página de producto de Micron y la cobertura industrial de TrendForce sobre asignaciones de suministro, documentación técnica del estándar JEDEC JESD238, reportajes de Tom's Hardware sobre las plataformas H200/B200, comentarios del CEO de TSMC C.C. Wei sobre la capacidad de CoWoS en presentaciones a inversores, y análisis independientes de capacidad de Epoch AI y FusionWW. La perspectiva del editor IA se centra en explicar la interdependencia entre suministro HBM y empaquetado CoWoS como restricción compuesta, con énfasis en las implicaciones para proveedores de infraestructura en la nube a nivel global.

¿Qué es HBM y qué es HBM3e?

La Memoria de Alto Ancho de Banda (High Bandwidth Memory, HBM) es un tipo de DRAM diseñada para maximizar la velocidad de transferencia de datos más que la densidad de almacenamiento. En lugar de conectar módulos de memoria separados a través de una placa de circuito impreso, HBM apila múltiples chips de DRAM en vertical, unidos por electrodos que atraviesan el silicio (Through-Silicon Vias, TSV). Esa pila se coloca directamente junto al chip de cómputo sobre un interpositor de silicio, formando una integración 2.5D que comprime los caminos eléctricos a milímetros y habilita un bus de memoria de 1024 bits de ancho — 16 veces más que el canal de 64 bits de DDR5.

HBM3e fue estandarizado por JEDEC en mayo de 2023 (norma JESD238). Eleva las velocidades de transferencia por pin desde los ~6,4 Gbps de HBM3 hasta 9,2–9,8 Gbps en implementaciones estándar, alcanzando 12,4 Gbps en empaquetados avanzados. Una sola pila de 8 capas (8-Hi) entrega entre 1,18 y 1,23 TB/s de ancho de banda agregado, frente a los ~800 GB/s de HBM3 — una mejora de aproximadamente el 50%. La arquitectura conserva el bus de 1024 bits, 16 canales y 32 pseudo-canales; la ganancia de rendimiento proviene del mayor clock por pin y de mejoras en la estabilidad de suministro de potencia que reducen las caídas de tensión bajo carga pico hasta en un 75%.

El producto 12-Hi de SK Hynix (producción en masa desde septiembre de 2024) demuestra cómo escala la capacidad sin aumentar el grosor: 12 chips de DRAM adelgazados un 40% respecto a la generación anterior se apilan en la misma altura de encapsulado que el 8-Hi, logrando 36 GB por pila a 9,6 Gbps. SK Hynix comenzó a distribuir muestras del 16-Hi (48 GB por pila) en 2025, reportando mejoras del 18% en entrenamiento de IA generativa y del 32% en inferencia respecto al 12-Hi.

Por qué HBM3e es imprescindible para la IA

La inferencia de modelos de lenguaje de gran escala está fundamentalmente limitada por el ancho de banda de memoria: generar tokens requiere mover los pesos del modelo desde la memoria hacia las unidades de cómputo de manera continua, a velocidades que ninguna DRAM convencional puede sostener. La NVIDIA H100 SXM5 incluye 80 GB de HBM3 con 3,35 TB/s de ancho de banda total. Al pasar a HBM3e en la H200, tanto la capacidad (141 GB) como el ancho de banda (4,8 TB/s) se incrementan sin rediseñar el chip de cómputo. La B200 lleva esto más lejos, con 192 GB de HBM3e — un aumento del 140% en capacidad respecto a la H100.

SK Hynix publicó un dato concreto para ilustrar la importancia práctica: una sola GPU con cuatro pilas de HBM3e puede ejecutar aproximadamente 35 inferencias por segundo sobre un modelo de 70 000 millones de parámetros (escala Llama 3). Esa cifra está determinada casi exclusivamente por el ancho de banda de memoria, no por la potencia de cómputo. Para referencia, la GDDR6X de una GPU de consumo tope de gama entrega cerca de 1 TB/s en total; una sola pila HBM3e ya supera ese valor.

La conclusión es clara: HBM3e no es una especificación opcional para hardware de IA de frontera. Es el requisito mínimo para ejecutar modelos de gran escala con un rendimiento comercialmente viable.

Cadena de suministro

Solo tres fabricantes de DRAM proveen HBM a escala mundial, y su progreso en la certificación de HBM3e ha sido marcadamente desigual.

SK Hynix fue el primero en producir en masa HBM3e en configuración 8-Hi, y en septiembre de 2024 completó la producción en masa del 12-Hi. La clave estuvo en su proceso de unión Advanced MR-MUF (Underfill por Reflujo Masivo Moldeado), que adelgaza cada chip un 40% manteniendo el mismo perfil de altura. Para finales de 2024 dominaba el mercado de HBM3e y ya tenía muestras del 16-Hi (48 GB) listas para 2025.

Micron inició la producción en masa del 12-Hi a principios de 2025 usando su nodo de proceso 1β, reclamando hasta un 30% menos de consumo energético que la competencia. Micron divulgó públicamente que su suministro de HBM3e para 2024 estaba agotado y que la mayor parte de 2025 también estaba ya comprometida, confirmando la escasez estructural del mercado. Su cuota proyectada alcanzaría el 20–25% a finales de 2025.

Samsung enfrentó problemas persistentes de estabilidad térmica y rendimiento en el apilamiento. Su HBM3e de 12 capas no superó las pruebas de aceptación de NVIDIA hasta septiembre de 2025 — más de 18 meses después que sus competidores. Ese retraso excluyó a Samsung de la cadena de suministro de la H200 y de las primeras rondas de producción de la B200, concentrando los ingresos del ciclo de mayor margen en SK Hynix y Micron.

Para principios de 2026, la producción de HBM consumía aproximadamente el 23% de los inicios de obleas de DRAM a nivel mundial. Tanto SK Hynix como Micron reportaron sus cuotas de 2026 completamente asignadas. Microsoft firmó en enero de 2026 un acuerdo de suministro exclusivo con SK Hynix para HBM3e destinado a su acelerador Maia 200 — señal de que los hyperscalers aseguran capacidad directamente en origen. Las inversiones de capital reflejan las perspectivas de demanda a largo plazo: SK Hynix comprometió más de 30 000 millones de dólares en nuevas instalaciones; Micron anuncia 20 000 millones para sus plantas en Idaho y 7 000 millones para un nuevo sitio en Singapur.

Por qué CoWoS es un cuello de botella para el despliegue de IA

Fabricar las pilas de HBM3e es solo la primera parte del problema. Integrarlas con los chips de cómputo requiere empaquetado avanzado — y la tecnología dominante para esto, el proceso CoWoS (Chip on Wafer on Substrate) de TSMC, constituye un segundo cuello de botella completamente independiente.

CoWoS coloca el chip de cómputo y las pilas de HBM en paralelo sobre un interpositor de silicio y los conecta mediante microbumps de paso fino, logrando densidades de interconexión imposibles de alcanzar con sustratos orgánicos. Todos los aceleradores de IA relevantes que usan HBM — NVIDIA H100, H200, B100/B200, AMD MI300X — pasan por un proceso CoWoS en TSMC. Ninguna otra fundición ofrece capacidad equivalente a escala para estas plataformas.

El CEO de TSMC, C.C. Wei, declaró en múltiples conferencias con inversores que la capacidad de CoWoS estaba "muy ajustada y agotada hasta 2025 y hacia 2026". Las cifras de capacidad explican el porqué: TSMC operaba alrededor de 35 000 inicios de oblea CoWoS al mes a finales de 2024, con plan de escalar a 75 000 para finales de 2025 y a 130 000 para finales de 2026 — una expansión de casi 4 veces en menos de dos años. Sin embargo, las herramientas de CoWoS requieren infraestructura de sala limpia dedicada con plazos de entrega de años, no de meses.

La arquitectura Blackwell de NVIDIA añadió complejidad adicional: el die GB200 supera el límite de reticulo — el área máxima que puede imprimir un solo paso de litografía. TSMC respondió con CoWoS-L (variante de Local Silicon Interconnect Bridge), que une múltiples chiplets mediante puentes de silicio embebidos. CoWoS-L requiere pasos de proceso y equipamiento distintos al CoWoS-S estándar, distribuyendo la inversión de expansión entre dos flujos de proceso simultáneamente.

Los compromisos de gasto de capital de los hyperscalers para infraestructura de IA en 2026 se estiman en 650 000 millones de dólares globalmente. Con una capacidad de CoWoS medida en decenas de miles de obleas al mes, ese nivel de demanda garantiza que la restricción persista al menos hasta 2027, incluso mientras TSMC ejecuta su agresiva expansión.

Implicaciones para las empresas de chips

Para NVIDIA, la restricción compuesta — suministro HBM y capacidad CoWoS — actúa como un acelerador físico sobre la conversión de ingresos. Los envíos de la B200 en 2024–2025 quedaron por debajo de la demanda principalmente porque los slots de empaquetado eran el insumo escaso, no el rendimiento del silicio. La respuesta de NVIDIA ha incluido colaborar con TSMC en la expansión de CoWoS-L y mantener relaciones de suministro con SK Hynix y Micron para reducir el riesgo de proveedor único.

AMD MI300X enfrenta la misma doble dependencia: compite por la misma cola de CoWoS y el mismo pool limitado de HBM3e. El menor volumen de AMD en relación a NVIDIA ofrece algo de flexibilidad en las negociaciones de asignación, pero no puede eludir ninguno de los dos cuellos de botella.

Samsung enfrenta una penalización estratégica acumulada: su retraso de 18 meses significa que perdió la fase de mayor margen del ciclo HBM3e. A medida que la hoja de ruta avanza hacia variantes HBM3e+ y HBM4 en 2026–2027, Samsung deberá restablecer su certificación en cada paso.

SK Hynix y Micron, como proveedores certificados principales, mantienen poder de fijación de precios al menos hasta 2026. El estado de agotamiento de cuotas permite acuerdos de suministro comprometidos a múltiples años y traslada el poder de negociación de los compradores hacia los vendedores.

La implicación más amplia para la industria semiconductora: el empaquetado avanzado — no la densidad de transistores — es ahora el factor limitante principal del escalado de cómputo de IA. Los programas futuros de hardware de IA deben planificar la capacidad de CoWoS antes del tape-out, no después.

Fuentes

SK Hynix comunicado: "SK hynix inicia producción en masa del primer HBM3E de 12 capas del mundo" — news.skhynix.com — consultado 2026-05-20
SK Hynix comunicado: "SK hynix inicia producción en masa del primer HBM3E de la industria (8-Hi)" — news.skhynix.com — consultado 2026-05-20
SK Hynix comunicado: "SK hynix presenta HBM3E de 16 capas en SK AI Summit 2024" — news.skhynix.com — consultado 2026-05-20
TrendForce: "Micron inicia producción en masa de HBM3e para H200 de NVIDIA" — trendforce.com — consultado 2026-05-20
TrendForce: "HBM3e 12-Hi de Micron listo para producción, apunta a H200 y B100/B200 de NVIDIA" — trendforce.com — consultado 2026-05-20
TrendForce: "Micron prepara producción en masa de HBM3E de 12 capas, asegurando acuerdo con NVIDIA" — trendforce.com — consultado 2026-05-20
TrendForce: "SK hynix lidera el mercado con productos HBM3e 16hi" — trendforce.com — consultado 2026-05-20
JEDEC comunicado: "JEDEC publica actualización del estándar HBM3" — jedec.org — consultado 2026-05-20
Micron página de producto: HBM3E — micron.com — consultado 2026-05-20
Tom's Hardware: "Hojas de ruta HBM para Micron, Samsung y SK hynix: hacia HBM4 y más allá" — tomshardware.com — consultado 2026-05-20
Tom's Hardware: "La capacidad de CoWoS de TSMC está bajo presión por la demanda de IA" — tomshardware.com — consultado 2026-05-20
FusionWW: "Dentro del cuello de botella de la IA: CoWoS, HBM y restricciones de capacidad 2–3nm hasta 2027" — info.fusionww.com — consultado 2026-05-20
Blog Siemens EDA: "HBM3e y HBM4: guía de diseño IC para memoria de alto ancho de banda de nueva generación" — blogs.sw.siemens.com — consultado 2026-05-20
Wikipedia: "High Bandwidth Memory" — en.wikipedia.org — consultado 2026-05-20