Aleksei - stock.adobe.com

Facebook estuvo desconectado seis horas por un error de configuración

Un cambio en la configuración desconectó efectivamente a Facebook de internet, con miles de millones de personas afectadas por la pérdida de servicios.

Facebook, WhatsApp, Instagram y cualquier servicio que utilizara los servicios de Facebook no estuvieron disponibles durante seis horas ayer (4 de octubre de 2021), debido a un cambio en la configuración que desconectó a Facebook de internet.

Según algunos informes, los ingenieros de Facebook tampoco pudieron acceder a los servidores de Facebook de forma remota, lo que significó que los administradores necesitaron acceso físico al hardware del centro de datos para resolver el problema. El problema se agravó debido al funcionamiento de internet, que replicó de forma autónoma la desconfiguración en todo el mundo. En efecto, miles de millones de personas no pudieron acceder a los servicios basados en Facebook.

Santosh Janardhan, vicepresidente de infraestructuras de Facebook, emitió una disculpa en un blog: «A todas las personas y empresas de todo el mundo que dependen de nosotros, lamentamos las molestias causadas por la interrupción de hoy en nuestras plataformas. Nos disculpamos con todos los afectados, y estamos trabajando para entender mejor qué sucedió hoy para que podamos continuar haciendo a nuestra infraestructura más resiliente».

En el post, Janardhan dijo que los cambios de configuración en los routers troncales que coordinan el tráfico de red entre los centros de datos de Facebook causaron problemas que interrumpieron las comunicaciones. «Esta interrupción del tráfico de red tuvo un efecto en cascada en la forma en que nuestros centros de datos se comunican, lo que hizo que nuestros servicios se detuvieran», dijo.

Según el análisis de Cloudfare sobre la interrupción, el cambio de configuración hizo que los nombres DNS de Facebook dejaran de resolver las direcciones IP. En efecto, esto significaba que las IP de su infraestructura eran inalcanzables. «Fue como si alguien hubiera ‹tirado los cables› de sus centros de datos de una sola vez y los hubiera desconectado de internet», señaló Cloudflare en una entrada de su blog.

«A las 16:58 UTC nos dimos cuenta de que Facebook había dejado de anunciar las rutas a sus prefijos DNS. Eso significaba que, al menos, los servidores DNS de Facebook no estaban disponibles. Debido a esto, el resolvedor DNS 1.1.1.1 de Cloudflare ya no podía responder a las consultas que pedían la dirección IP de facebook.com o instagram.com», afirmó Cloudflare en la entrada del blog.

Según Cloudflare, el problema del DNS fuera de línea se vio agravado por el protocolo de pasarela de borde (BGP), un mecanismo para intercambiar información de enrutamiento entre sistemas autónomos (AS) en internet. Internet es efectivamente una red de redes unidas por BGP.

Cada una de estas redes tiene un número de sistema autónomo (ASN) con una política de enrutamiento interna unificada. Según Cloudflare, cada ASN necesita anunciar sus rutas de prefijo a internet mediante BGP, de lo contrario nadie sabrá cómo conectarse y dónde encontrar servicios basados en internet.

Sus datos de registro del tráfico de internet mostraron que hubo un pico de cambios de enrutamiento de Facebook a las 15:40 UTC.

«Ahí empezaron los problemas. Las rutas se retiraron, los servidores DNS de Facebook se desconectaron y, un minuto después de que se produjera el problema, los ingenieros de Cloudflare estaban en una sala preguntándose por qué [1.1.1.1, nuestro resolvedor de DNS] no podía resolver facebook.com y preocupándose de que fuera de alguna manera un fallo de nuestros sistemas», dijo Cloudfare.

La red de redes que conforma internet está construida para ser resiliente, y el tráfico IP se encamina automáticamente mediante el sistema DNS. Pero con los cambios de configuración realizados por Facebook, otros servidores DNS ya no podían «ver» los servidores de nombres de Facebook, que traducen facebook.com a una dirección IP física, y asumían que estaban desconectados.

«Debido a que Facebook dejó de anunciar sus rutas de prefijo DNS a través de BGP, nuestros resolutores DNS y los de todos los demás no tenían forma de conectarse a sus servidores de nombre. En consecuencia, 1.1.1.1, 8.8.8.8 y otros resolutores de DNS públicos importantes comenzaron a emitir (y a almacenar en caché) respuestas SERVFAIL», señaló Cloudflare.

Dado que las aplicaciones web tienden a seguir intentando acceder a los servidores incluso si emiten el error SERVFAIL, Cloudflare dijo que vio un enorme aumento de las solicitudes de DNS. Sus datos de registro mostraron un aumento de 30 veces en dichas solicitudes. Según Cloudflare, los servicios de Facebook se reanudaron a las 21:28 UTC.

Investigue más sobre Aplicaciones y software Web