El fracaso de CrowdStrike y el próximo colapso informático global ya están en ciernes

El fracaso de CrowdStrike y el próximo colapso informático global ya están en ciernes

Cuando las pantallas de ordenador se volvió azul en todo el mundo el viernes, Los vuelos fueron suspendidosEl check-in en los hoteles se hizo imposible y los envíos de mercancías se paralizaron. Las empresas recurrieron al papel y al bolígrafo. Las primeras sospechas apuntaron a algún tipo de ciberataque terrorista. Sin embargo, la realidad fue mucho más mundana: una actualización de software fallida de la empresa de ciberseguridad CrowdStrike.

«En este caso, fue una actualización de contenido», dijo Nick Hyatt, director de inteligencia de amenazas de la empresa de seguridad Blackpoint Cyber.

Y debido a que CrowdStrike tiene una base tan amplia de clientes, la actualización de contenido se sintió en todo el mundo.

«Un error ha tenido resultados catastróficos. Este es un gran ejemplo de lo estrechamente vinculada que está nuestra sociedad moderna a la TI: desde las cafeterías hasta los hospitales y los aeropuertos, un error como este tiene ramificaciones enormes», dijo Hyatt.

En este caso, la actualización de contenido se vinculó al software de monitoreo CrowdStrike Falcon. Falcon, dice Hyatt, tiene conexiones profundas para monitorear malware y otro comportamiento malicioso en los puntos finales, en este caso, computadoras portátiles, computadoras de escritorio y servidores. Falcon se actualiza automáticamente para tener en cuenta las nuevas amenazas.

«Se implementó un código con errores a través de la función de actualización automática y, bueno, aquí estamos», dijo Hyatt. La capacidad de actualización automática es estándar en muchas aplicaciones de software y no es exclusiva de CrowdStrike. «Es solo que debido a lo que hace CrowdStrike, las consecuencias aquí son catastróficas», agregó Hyatt.

Los errores de pantalla azul de la muerte en las pantallas de las computadoras se ven debido a la interrupción global de las comunicaciones causada por CrowdStrike, que brinda servicios de seguridad cibernética a la empresa de tecnología estadounidense Microsoft, el 19 de julio de 2024 en Ankara, Turquía.

Harun Ozalp | Anatolia | Getty Images

A pesar de CrowdStrike identificó rápidamente el problemay muchos sistemas volvieron a funcionar en cuestión de horas, la cascada global de daños no es fácil de revertir para las organizaciones con sistemas complejos.

«Creemos que pasarán entre tres y cinco días antes de que se resuelvan las cosas», dijo Eric O’Neill, ex agente antiterrorista y de contrainteligencia del FBI y experto en ciberseguridad. «Esto supone un montón de tiempo de inactividad para las organizaciones».

No ayudó, dijo O’Neill, que el apagón ocurriera un viernes de verano con muchas oficinas vacías y escaseando el personal de TI para ayudar a resolver el problema.

Las actualizaciones de software deben implementarse de forma incremental

Una lección de la interrupción global de TI, dijo O’Neill, es que la actualización de CrowdStrike debería haber sido implementado de forma incremental.

«Lo que Crowdstrike estaba haciendo era distribuir sus actualizaciones a todo el mundo a la vez. Esa no es la mejor idea. Enviarlo a un grupo y probarlo. Hay niveles de control de calidad por los que debería pasar», dijo O’Neill.

«Debería haber sido probado en entornos sandbox y en muchos entornos antes de salir al mercado», afirmó Peter Avery, vicepresidente de seguridad y cumplimiento de Visual Edge IT.

Espera que se necesiten más medidas de seguridad para evitar futuros incidentes que repitan este tipo de fallos.

«En las empresas se necesitan los controles y contrapesos adecuados. Podría haber sido una sola persona la que decidió impulsar esta actualización, o alguien eligió el archivo equivocado para ejecutarlo», dijo Avery.

La industria de TI lo llama un fallo de un solo punto — un error en una parte de un sistema que crea un desastre técnico en todas las industrias, funciones y redes de comunicaciones interconectadas; un efecto dominó masivo.

Llamado a crear redundancia en los sistemas de TI

El evento del viernes podría hacer que las empresas y las personas aumenten su nivel de preparación cibernética.

«El panorama general es lo frágil que es el mundo; no se trata solo de un problema cibernético o técnico. Hay un montón de fenómenos diferentes que pueden provocar un apagón, como las erupciones solares que pueden destruir nuestras comunicaciones y aparatos electrónicos», dijo Avery.

En definitiva, la crisis del viernes no fue una crítica a Crowdstrike o Microsoft, sino a la forma en que las empresas ven la ciberseguridad, dijo Javed Abed, profesor adjunto de sistemas de información en la Johns Hopkins Carey Business School. «Los dueños de empresas deben dejar de ver los servicios de ciberseguridad como un mero costo y, en cambio, como una inversión esencial en el futuro de su empresa», dijo Abed.

Las empresas deberían hacer esto incorporando redundancia en sus sistemas.

«Un único punto de fallo no debería ser capaz de detener una empresa, y eso es lo que ocurrió», dijo Abed. «No se puede confiar sólo en una herramienta de ciberseguridad, en los principios básicos de la ciberseguridad», dijo Abed.

Si bien crear redundancia en los sistemas empresariales es costoso, lo que ocurrió el viernes es más caro.

«Espero que esto sea una llamada de atención y que provoque algunos cambios en la mentalidad de los dueños de empresas y organizaciones para que revisen sus estrategias de ciberseguridad», dijo Abed.

¿Qué hacer con el código de «nivel de núcleo»?

A nivel macro, es justo asignar cierta culpa sistémica dentro de un mundo de TI empresarial que a menudo ve la ciberseguridad, la seguridad de los datos y la cadena de suministro de tecnología como «cosas agradables de tener» en lugar de esenciales, y una falta general de liderazgo en ciberseguridad dentro de las organizaciones, dijo Nicholas Reese, ex funcionario del Departamento de Seguridad Nacional e instructor en el Centro SPS para Asuntos Globales de la Universidad de Nueva York.

En un nivel micro, Reese dijo que el código que causó esta interrupción era código a nivel de núcleo, que afectaba a todos los aspectos de comunicación del hardware y el software de la computadora. «El código a nivel de núcleo debería recibir el nivel más alto de escrutinio», dijo Reese, y la aprobación y la implementación deben ser procesos completamente separados y con rendición de cuentas.

Este es un problema que continuará en todo el ecosistema, inundado de productos de terceros, todos con vulnerabilidades.

«¿Cómo podemos analizar el ecosistema de proveedores externos y ver dónde estará la próxima vulnerabilidad? Es casi imposible, pero tenemos que intentarlo», dijo Reese. «No es una posibilidad, sino una certeza hasta que nos enfrentemos a la cantidad de vulnerabilidades potenciales. Necesitamos centrarnos en las copias de seguridad y la redundancia e invertir en ellas, pero las empresas dicen que no pueden permitirse pagar por cosas que tal vez nunca ocurran. Es un argumento difícil de defender», dijo.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *