La interrupción de Microsoft empeoró por la escasez de personal Edad de información

Existe la preocupación de que la reducción de personal pueda afectar la confiabilidad del servicio en la nube Azure de Microsoft. Imagen: Shutterstock

Microsoft ha culpado a la falta de personal y a problemas de automatización por una interrupción del servicio en un centro de datos australiano que sacudió sus servicios Azure, Microsoft 365 y Power Platform durante más de 24 horas.

Entre el 30 de agosto y el 1 de septiembre, las empresas australianas que dependen de los servicios en la nube del gigante del software Microsoft sufrieron un tiempo de inactividad significativo cuando un «baja de energía» provocó interrupciones que afectaron a varios productos.

«Este evento fue causado por una caída de energía eléctrica en la región del este de Australia, lo que provocó una falla en un subconjunto de unidades de enfriamiento fuera de línea en un solo centro de datos, dentro de una zona de disponibilidad», dijo Microsoft.

La interrupción generalizada afectó a un gran número de clientes, incluidas empresas australianas de alto perfil como la aerolínea de bajo coste Jetstar y un fabricante de software de contabilidad. miop y bancos australianos Banco Mi Y Banco de Queensland.

Durante la interrupción, los usuarios de la plataforma en la nube Azure de Microsoft, la suite de productividad Microsoft 365 y la suite para desarrolladores Power Platform experimentaron problemas generalizados de acceso y usabilidad entre las 6:41 p. m. del 30 de agosto y las 4:40 p. m. del 1 de septiembre.

el incidente Vio que la planta de enfriamiento de la compañía (el sistema de enfriamiento que proporciona enfriamiento primario en los centros de datos) para sus dos bases de datos se desconectaba, esencialmente quemando partes de su hardware de almacenamiento.

READ  Twitter Spaces puede tener una nueva apariencia pronto

«La capacidad de enfriamiento en dos bases de datos se ha reducido durante un período prolongado, por lo que las temperaturas han seguido aumentando», dijo Microsoft.

“A las 11.34 UTC, las advertencias térmicas de infraestructura emitidas por los componentes de los lagos de datos afectados ordenaron el cierre de infraestructuras de computación, redes y almacenamiento específicas, por diseño, para proteger la durabilidad de los datos y la integridad de la infraestructura.

«Esto resultó en una pérdida de disponibilidad del servicio para un subconjunto de esa zona de disponibilidad».

El informe de Microsoft sobre el incidente sugiere que es posible que no haya estado adecuadamente preparado para una interrupción de esta magnitud, ya que la compañía dijo que no tenía suficiente personal en el lugar para que los enfriadores volvieran a funcionar a tiempo.

Sólo había tres personas de servicio en Australia durante la incendiaria «caída de energía», que la propia Microsoft admitió que era muy poca.

«Hemos aumentado temporalmente el tamaño del equipo, para que se comprendan mejor los problemas subyacentes y se puedan implementar las mitigaciones adecuadas», dijo Microsoft.

El incidente se vio exacerbado por algunas complicaciones relacionadas con la automatización, lo que dejó a la empresa en apuros mientras su infraestructura se negaba a volver a estar en línea.

Como las altas temperaturas dañaron los dispositivos de almacenamiento de Microsoft, las herramientas de diagnóstico de la empresa no pudieron localizar datos esenciales porque los servidores de almacenamiento relevantes estaban caídos.

«Los diagnósticos no pudieron identificar errores porque los propios nodos de almacenamiento no estaban conectados a Internet», dijo Microsoft.

READ  El Aston Martin DBX S 2022 sigue en pie

«Como resultado, nuestro equipo del centro de datos en el sitio necesitaba quitar manualmente los componentes y reposicionarlos uno por uno para identificar los componentes específicos que impedían que cada nodo funcionara».

Además, la automatización de la empresa «aprobaba incorrectamente solicitudes obsoletas» y «marcaba algunos nodos sanos como no saludables», lo que ralentizaba aún más los esfuerzos de recuperación.

Los usuarios de Reddit y Twitter se apresuraron a criticar a la empresa y su lenta recuperación, atribuyendo gran parte del incidente a los recientes despidos de Microsoft.

«No me sorprende», dijo el usuario de Reddit. No_Documento_7800.

«Microsoft ha estado reduciendo, subcontratando o deslocalizando sus equipos para reducir costos, y podemos verlo en la calidad de sus productos y la confiabilidad del servicio».

Sin embargo, dijo Mark Culhane, director de la consultora tecnológica australiana Zoak Solutions. Edad de información No se sintió frustrado con los servicios en la nube de Microsoft después del incidente.

«Este incidente no genera preocupaciones significativas sobre los servicios en la nube de Microsoft», dijo.

«Ellos, junto con otros proveedores importantes de la nube (AWS y GCP), son generalmente más confiables e infalibles en comparación con soluciones alternativas».

Culhane también aprobó la respuesta del gigante del software a la interrupción, sugiriendo que su historial de servicios confiables no debería verse eclipsado por los acontecimientos recientes.

«Incluso si el impacto fuera más significativo, sigo creyendo que la respuesta de Microsoft en este caso fue apropiada», dijo Culhane.

«El análisis de la causa raíz de Microsoft sobre personal inadecuado y automatización fallida no es sorprendente. Dada la alta estabilidad general de sus servicios en la nube en los últimos años, este incidente específico y su respuesta posterior no nos preocupan profundamente».

READ  Actualización de Riot sobre la dinámica de los jugadores mientras luchan contra la toxicidad

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *