La gente de CrowdStrike todavía se siguen castigando por los errores que causaron la temida pantalla azul de la muerte de Windows y que acabó con un apagón mundial de varios sistemas de servicios esenciales como aeropuertos, supermercados y bancos.
Y ahora la compañía de seguridad acaba de descubrir dónde está el culpable de la falla de la interrupción masiva de BSOD:
CrowdStrike ha culpado a un software de prueba defectuoso por una actualización errónea que bloqueó 8,5 millones de máquinas Windows en todo el mundo, y escribió en una revisión posterior al incidente (PIR). «Debido a un error en el Validador de contenido, una de las dos [actualizaciones] pasó la validación a pesar de contener datos problemáticos», dijo la compañía. Prometió una serie de nuevas medidas para evitar que se repita el problema.
Para prevenir ataques DDoS y otros tipos de amenazas, CrowdStrike ofrece una herramienta denominada Falcon Sensor. Esta se distribuye con un contenido que opera a nivel del kernel, conocido como contenido del sensor, el cual emplea un «modelo de plantilla» para establecer su defensa contra las amenazas. En caso de surgir nuevas amenazas, se proporciona «Contenido de respuesta rápida» mediante «Instancias de plantilla».
El 5 de marzo de 2024 se publicó un tipo de plantilla para un nuevo sensor y funcionó según lo esperado. Sin embargo, el 19 de julio, se lanzaron dos nuevas instancias de plantilla y una (de solo 40 KB de tamaño) pasó la validación a pesar de tener «datos problemáticos», dijo CrowdStrike. «Cuando el sensor lo recibe y lo carga en el intérprete de contenido, [esto] da lugar a una lectura de memoria fuera de límites que desencadena una excepción. Esta excepción inesperada no se pudo manejar correctamente, lo que resultó en un bloqueo del sistema operativo Windows (BSOD)».
Soluciones que ofrece CrowdStrike ahora
La primera es una prueba más exhaustiva del contenido de Rapid Response, incluidas las pruebas de desarrolladores locales, las pruebas de actualización y reversión de contenido, las pruebas de estrés, las pruebas de estabilidad y más. También está agregando comprobaciones de validación y mejorando la gestión de errores.
Además, la empresa adoptará una estrategia de despliegue gradual para el contenido de respuesta rápida, con el fin de prevenir futuras interrupciones a nivel mundial. Asimismo, otorgará a los clientes un control más amplio sobre cómo se distribuye dicho contenido y ofrecerá notas de versión para las actualizaciones.