IA y data centers: por qué la resiliencia ya no se mide solo en uptime
El avance de la inteligencia artificial (IA) lleva a los centros de datos a un nivel de exigencia sin precedentes. El entrenamiento de modelos, el procesamiento masivo de información y las cargas de inferencia en tiempo real demandan mayor capacidad de cómputo y energía. En este escenario, la resiliencia de la infraestructura digital ya no se define solo por el uptime, sino por la capacidad de anticipar y gestionar riesgos en sistemas cada vez más interconectados.
Los incidentes no siempre se originan en la caída de un componente específico, sino en la interacción entre sistemas energéticos, infraestructura TI y plataformas de enfriamiento. Luis Santamaría, Cloud and Service Provider Segment Leader de Schneider Electric, explica que esta interdependencia obliga a replantear la gestión de estas infraestructuras.
“Los centros de datos han evolucionado hacia sistemas altamente interdependientes. Un evento en energía puede afectar el enfriamiento, y un problema térmico puede impactar directamente en la capacidad de procesamiento”, señala.
Actualmente existen cerca de 10 000 centros de datos en 164 países, según datos del Programa de las Naciones Unidas para el Desarrollo (PNUD), aunque su distribución es desigual. América Latina y el Caribe concentran apenas el 4,8% de esta infraestructura, lo que evidencia la brecha tecnológica y el potencial de crecimiento regional.
De fallas aisladas a fallas sistémicas
Uno de los principales cambios en la industria es el paso de incidentes puntuales a fallas sistémicas, donde distintos subsistemas interactúan y generan efectos en cadena. Por ejemplo, un aumento repentino en la carga de procesamiento puede elevar la temperatura del hardware. El sistema de enfriamiento responde con mayor actividad, por lo que una gestión y mantenimiento optimizada mejorará su rendimiento energético, permitiendo una operación más eficiente y resiliente.
Si la gestión energética no está alineada con la operación, el equilibrio del sistema puede verse comprometido. “Hoy vemos más riesgo sistémico: no falla un componente, sino la interacción entre los sistemas. Energía, cooling, TI y automatización están tan interconectados que cualquier desajuste puede escalar rápidamente en un problema operativo”, advierte Santamaría.
Durante años, la continuidad operativa se basó en la redundancia: duplicar sistemas críticos o instalar generadores de respaldo. Estas medidas siguen siendo importantes, pero ya no son suficientes. Los centros de datos modernos generan grandes volúmenes de información sobre consumo energético, temperatura y comportamiento de las cargas de trabajo. Analizar esos datos permite anticipar riesgos y mejorar la toma de decisiones.
Sin embargo, Santamaría señala que el uso de esta información aún es limitado. “Si somos honestos como industria, todavía hay mucho uso reactivo en los datos. Tenemos sensores y monitoreo en tiempo real muy potentes, pero en muchos casos se utilizan solo para ver alarmas y no para anticipar decisiones”, afirma.
Datos para anticipar riesgos
El desafío consiste en usar esos datos para anticipar escenarios operativos. Este cambio ocurre en un contexto de fuerte expansión del sector. El informe Latin America Data Center Market Landscape 2024 proyecta que los centros de datos de colocation y edge crecerán más de 25% anual en la región hasta 2026, impulsados por servicios cloud, analítica avanzada e IA.
La resiliencia de los centros de datos adquiere mayor relevancia por su rol en la economía digital. Estas infraestructuras sostienen servicios financieros, comercio electrónico, telecomunicaciones, sistemas de salud, entre otras industrias. Al mismo tiempo, la IA impulsa nuevas inversiones en infraestructura tecnológica. Países como China han anunciado más de US$ 70 000 millones destinados al desarrollo de centros de datos, mientras grandes empresas tecnológicas construyen instalaciones cada vez más potentes para operar modelos de IA a escala global.
Este crecimiento exige modernizar sistemas de energía, enfriamiento, conectividad y monitoreo. “La resiliencia ya no solo se define como uptime, sino como capacidad de adaptación: entender cómo responde el sistema completo ante nuevos escenarios y tomar decisiones antes de que el incidente ocurra”, concluye Santamaría.
En un contexto de crecimiento acelerado de la IA y de mayor dependencia de la infraestructura digital, los centros de datos enfrentan un reto claro: pasar de reaccionar ante fallas a anticiparlas. La resiliencia del futuro no dependerá solo de tener más respaldo técnico, sino de comprender cómo interactúan los sistemas que sostienen la operación digital.
#SomosYulderYCris #RedExpertos #Sostenibilidad #ConsejoSostenible