motortion - stock.adobe.com
CrowdStrike culpa a una actualización de la configuración de contenido por interrupción
CrowdStrike publica los resultados preliminares de lo que será una larga investigación sobre las causas fundamentales de la actualización fallida del 19 de julio, que provocó que las computadoras con Windows fallaran en todo el mundo.
La firma cibernética CrowdStrike, bajo escrutinio público, publicó una revisión inicial posterior al incidente que proporciona más información sobre la actualización que salió mal y que derribó millones de dispositivos Microsoft el 19 de julio, causando un caos global.
En una actualización publicada el 24 de julio, la empresa dijo que había intentado publicar una actualización de configuración de contenido para su sensor Falcon en hosts de Windows temprano en la mañana del viernes 19 de julio.
Esta actualización de “respuesta rápida” formó parte de los mecanismos de protección dinámica normales utilizados por la plataforma Falcon para llevar a cabo actividades de detección y remediación de amenazas cibernéticas. Básicamente, CrowdStrike utiliza las actualizaciones para identificar nuevos indicadores del comportamiento de los actores de amenazas y mejorar sus capacidades de detección y prevención.
Estas actualizaciones, entregadas en la nube, normalmente pasarían sin llamar la atención. Sin embargo, esta actualización provocó que los hosts de Windows que ejecutaban el sensor Falcon 7.11 y versiones posteriores que estaban en línea en ese momento fallaran.
De hecho, el problema en juego se remonta a febrero de 2024, cuando se lanzó la versión 7.11 del sensor Falcon, que contenía plantillas para detectar una nueva técnica de ataque que abusaba de las canalizaciones con nombre, un conducto de comunicación cliente-servidor. Posteriormente, estas plantillas se sometieron a pruebas de estrés y se validaron para su uso antes de lanzarlas a producción. Se implementaron tres instancias de plantilla más durante las semanas siguientes, nuevamente sin incidentes.
Avancemos hasta el 19 de julio, cuando se alinearon para desplegar dos instancias de plantilla adicionales para la misma técnica de ataque. Sin embargo, en esta ocasión, dijo CrowdStrike, un error en un validador de contenido automatizado, utilizado para verificar las actualizaciones, permitió a uno de ellos pasar las comprobaciones de validación "a pesar de contener datos de contenido problemáticos".
Se implementó con base en las pruebas realizadas en marzo, pero cuando se recibió y cargó, este contenido problemático en el archivo de canal 291 resultó en una condición de memoria fuera de límites, lo que desencadenó una excepción que abrumó a los sistemas operativos Windows.
La actualización con errores estuvo activa durante poco más de una hora y cuarto antes de que CrowdStrike la revirtiera, de 04:09 UTC a 05:27 UTC (5:09 BST a 06:27 BST) del viernes, pero este fue tiempo suficiente para causar más de ocho millones de dispositivos en todo el mundo se bloquearan y mostraran la infame Pantalla Azul de la Muerte, cuyas fotografías se difundieron por todo el mundo.
El director ejecutivo de CrowdStrike, George Kurtz, volvió a disculparse con los clientes y otras personas afectadas, incluidos los miles de personas que sufrieron retrasos y cancelaciones de vuelos.
“Todo CrowdStrike comprende la gravedad y el impacto de la situación. Rápidamente identificamos el problema e implementamos una solución, lo que nos permitió concentrarnos diligentemente en restaurar los sistemas de los clientes como nuestra máxima prioridad”, dijo Kurtz.
Kurtz también reiteró que ni él mismo ni Microsoft habían sido víctimas de ningún tipo de ciberataque, y reafirmó que los servidores Linux y Mac no se vieron afectados.
“CrowdStrike funciona con normalidad y este problema no afecta a nuestros sistemas de plataforma Falcon. No hay ningún impacto en ninguna protección si el sensor Falcon está instalado. Los servicios Falcon Complete y Falcon OverWatch no se verán afectados”, afirmó.
“Hemos movilizado a todo CrowdStrike para ayudarlo a usted y a sus equipos. Si tiene preguntas o necesita soporte adicional, comuníquese con su representante de CrowdStrike o con el soporte técnico.
“Sabemos que los adversarios y los malos actores intentarán explotar eventos como este. Animo a todos a permanecer atentos y asegurarse de interactuar con los representantes oficiales de CrowdStrike. Nuestro blog y soporte técnico seguirán siendo los canales oficiales para las últimas actualizaciones.
Kurtz añadió: “Nada es más importante para mí que la confianza que nuestros clientes y socios han depositado en CrowdStrike. A medida que resolvamos este incidente, tienen mi compromiso de brindar total transparencia sobre cómo ocurrió y los pasos que estamos tomando para evitar que algo como esto vuelva a suceder”.
¿Quién es George Kurtz?
El director ejecutivo de CrowdStrike, que ahora ha sido citado a rendir cuentas por el incidente ante el Congreso de los Estados Unidos, tiene un historial de actualizaciones fallidas. A principios de 2010, mientras trabajaba como director de tecnología (CTO) en la empresa de antivirus McAfee, la empresa impulsó una actualización de software que eliminó varios archivos importantes del sistema de Windows XP, lo que provocó bucles de arranque y pantallas azules cuando los desafortunados sistemas fallaron.
Kurtz, nacido en Nueva Jersey, que comenzó en la programación de videojuegos tecnológicos en un sistema Commodore, dejó McAfee en 2011 después de sentirse frustrado con la tecnología de la empresa. Se asoció con su colega de McAfee, Dmitri Alperovitch, y otro excolega para crear CrowdStrike, que se lanzó con la idea de trasladar la seguridad del antivirus a la de enfrentarse a los actores de amenazas.
El modelo basado en la nube de CrowdStrike resultó enormemente exitoso y, posteriormente, la empresa adquirió una sólida reputación en materia de inteligencia sobre amenazas y trabajo de investigación, desempeñando en particular un papel clave en la investigación sobre el hackeo del Comité Nacional Demócrata en 2016.
Aparte de las computadoras, Kurtz también es un apasionado de los coches y un piloto de carreras desde hace muchos años. Actualmente, compite en el Campeonato IMSA WeatherTech SportsCar en EE. UU. y Canadá, y también ha competido en las 24 Horas de Le Mans.
¿Qué pasa después?
CrowdStrike ha establecido ahora un amplio plan preliminar diseñado para evitar que un incidente de este tipo vuelva a ocurrir.
Esto incluye mejorar la resiliencia de las actualizaciones de respuesta rápida mediante la realización de más pruebas de desarrollador, pruebas de actualización y reversión, pruebas de estrés, inyección de fallas y fuzzing, pruebas de estabilidad y pruebas de interfaz de contenido. Se agregarán más comprobaciones de validación a su sistema de validación de contenido y se mejorará el manejo de errores existente de otros componentes de su configuración.
Los futuros despliegues de respuesta rápida también se realizarán de forma escalonada, desplegándose gradualmente en porciones más grandes de la base de sensores Falcon, comenzando con el llamado despliegue "canario". Como parte de esto, el rendimiento de los sensores y del sistema se someterá a un seguimiento mejorado, mientras que a los clientes se les dará un mayor control sobre la entrega de dichas actualizaciones, que ahora también vendrán con notas de la versión.