De février à aujourd’hui • Le Registre

De février à aujourd’hui • Le Registre

Analyse L’ironie du sort du fiasco CrowdStrike est qu’une entreprise de cybersécurité a provoqué exactement le type de panne mondiale massive qu’elle était censée empêcher. Et tout a commencé par une tentative de compliquer la vie des criminels et de leurs malwares, avec une mise à jour de son outil de détection et de réponse aux points d’accès Falcon.

Plus tôt dans la journée, le secteur de la sécurité en difficulté publié un examen préliminaire post-incident concernant la mise à jour défectueuse du fichier qui a conduit par inadvertance à ce qui a été décrit, par certains, comme La plus grande panne informatique dans l’histoire.

CrowdStrike s’est également engagé à prendre une série de mesures pour garantir que cela ne se reproduise plus, notamment des tests logiciels plus rigoureux et le déploiement progressif de ces types de mises à jour automatisées de manière échelonnée, au lieu de tout pousser partout, d’un seul coup. On nous promet une analyse complète des causes profondes à un moment donné.

Voici un aperçu plus détaillé de ce qui s’est passé, quand et comment.

CrowdStrike structure son logiciel Falcon basé sur le comportement de manière à ce qu’il dispose d’un contenu de capteur qui définit des modèles de code pouvant être utilisés pour détecter les activités malveillantes sur les systèmes ; puis produit et émet des données de contenu de réponse rapide qui personnalisent et utilisent ces modèles pour détecter des menaces spécifiques. Le contenu de réponse rapide configure la manière dont les modèles de code du contenu du capteur doivent fonctionner afin que les logiciels malveillants et les intrus puissent être identifiés et arrêtés.

Ce contenu est diffusé vers les déploiements Falcon sous la forme de fichiers de canal que vous avez tout entendu à propos de.

D’après ce que nous savons (et n’hésitez pas à nous communiquer d’autres détails), le problème de sécurité a commencé le 28 février, lorsque CrowdStrike a développé et distribué une mise à jour de capteur pour Falcon destinée à détecter une nouvelle technique d’attaque émergente qui abuse des canaux nommés sur Windows. Identifier cette activité est un bon moyen de minimiser les dommages causés par les intrus. La mise à jour du capteur a apparemment passé avec succès les tests habituels avant sa sortie.

Quelques jours plus tard, le 5 mars, la mise à jour a été soumise à des tests de résistance et validée pour utilisation. En conséquence, le même jour, une mise à jour de réponse rapide a été distribuée aux clients qui utilisaient la nouvelle détection de canal nommé malveillant.

Trois mises à jour de réponse rapide supplémentaires utilisant ce nouveau modèle de code ont été déployées entre le 8 et le 24 avril, et toutes « ont fonctionné comme prévu en production », selon le fournisseur.

Puis, trois mois plus tard, est arrivée la mise à jour de la réponse rapide entendue dans le monde entier.

Le vendredi 19 juillet à 04h09 UTC, CrowdStrike a déployé la mise à jour malencontreuse de son produit de sécurité pour terminaux Falcon. Le contenu de réponse rapide, l’un des deux publiés ce jour-là, était destiné à détecter les malfaiteurs utilisant des canaux nommés sur Windows pour contrôler à distance les logiciels malveillants sur les ordinateurs infectés, en utilisant cette mise à jour du modèle de capteur de mars pour détecter cette activité, mais les données livrées maintenant étaient malformées.

C’était tout simplement incorrect, et pire encore : le système de validation de CrowdStrike pour vérifier que les mises à jour de contenu fonctionneront comme prévu n’a pas signalé le fichier de canal défectueux qui était sur le point d’être envoyé à tout le monde. Le logiciel de validation était bogué, ce qui a permis à la mauvaise mise à jour de s’échapper alors que la publication aurait dû être arrêtée.

Lorsque Falcon a essayé d’interpréter les nouvelles informations de configuration brisées dans le contenu de la réponse rapide, elles ont été confondues accéder à la mémoire il ne devrait pas toucher. Comme le logiciel de sécurité fonctionne dans le contexte du système d’exploitation Windows – pour lui donner une bonne visibilité de la machine afin de l’analyser et de la protéger – lorsqu’il s’est écrasé à cause de ce mauvais accès à la mémoire, il sorti l’ensemble du système d’exploitation et des applications.

Les utilisateurs verraient un redoutable écran bleu de la mort, et l’ordinateur entrerait dans une boucle de démarrage : au redémarrage, il planterait à nouveau, et ce, à nouveau.

Déploiement de CrowdStrike une réparation à 05h27 UTC le même jour, mais dans le temps qu’il a fallu à son équipe d’ingénieurs pour remédier au problème – 78 minutes – au moins 8,5 millions d’appareils Windows ont été mis hors service. Cela représente plus d’un million de machines toutes les dix minutes en moyenne sur cette période ; imaginez si le correctif n’avait pas été déployé plus longtemps, par exemple pendant des heures.

On nous dit que les mises à jour du fichier de canal ne visaient pas seulement à lutter contre l’utilisation de canaux nommés pour connecter des logiciels malveillants à des serveurs de commande et de contrôle distants, mais également à empêcher l’utilisation de ces canaux pour masquer les activités malveillantes des logiciels de sécurité comme Falcon.

« Il s’agissait en fait d’une volonté d’analyser le comportement des données saisies », a déclaré Heath Renfrow, cofondateur de Fenix24, une société de récupération après sinistre. « Les cybercriminels, les acteurs malveillants, ont trouvé une nouvelle astuce qui leur a permis de contourner les solutions EDR et CrowdStrike a essayé de remédier à cela. Évidemment, cela a causé beaucoup de problèmes. »

Au moment où CrowdStrike a mis en place un correctif pour corriger l’erreur, des millions de machines Windows n’étaient pas en mesure d’échapper à la boucle de démarrage. « Le correctif n’a donc vraiment aidé que les systèmes qui n’étaient pas encore passés à l’écran bleu de la mort », a déclaré Renfrow. Le registrePour les systèmes qui étaient déjà endommagés, le fichier de canal endommagé devait être supprimé ou remplacé, généralement à la main, ce qui est une mauvaise nouvelle pour quiconque possède des milliers de PC à réparer.

À court terme, ils vont devoir beaucoup ramper.

Ce vendredi, compagnies aériennesbanques, communications d’urgence, hôpitaux et autres organisations critiques, y compris (horreur !) Starbucks au point mort. Et les criminels, saisissant ayant l’opportunité de gagner de l’argent au milieu du chaos, ils se sont rapidement mis au travail en hameçonnant ceux qui ont été touchés et en créant des domaines prétendant héberger des correctifs qui étaient en fait de nature malveillante.

Microsoft, à son tour, a fourni de sages conseils aux clients Falcon dont les machines virtuelles Azure restaient dans une boucle de démarrage BSOD : redémarrer. Beaucoup. « Plusieurs redémarrages (jusqu’à 15 ont été signalés) peuvent être nécessaires, mais les retours d’expérience globaux indiquent que les redémarrages constituent une étape de dépannage efficace à ce stade », a déclaré Redmond vendredi.

La CISA américaine a pesé dans la balance avec son alerte initiale à 15h30 UTC le 19 juillet. « La CISA est consciente de la panne généralisée affectant les hôtes Microsoft Windows en raison d’un problème avec une récente mise à jour de CrowdStrike et travaille en étroite collaboration avec CrowdStrike et les partenaires fédéraux, étatiques, locaux, tribaux et territoriaux (SLTT), ainsi qu’avec les partenaires d’infrastructures critiques et internationaux pour évaluer les impacts et soutenir les efforts de correction », a déclaré l’agence gouvernementale.

Plus tard dans la journée, à 19h30 UTC, après une non-excuses antérieures sur Xitter, le PDG et fondateur de CrowdStrike, George Kurt, a fait “Je m’excuse sincèrement” aux clients et partenaires de son entreprise :

Nous doutons que cela ait été fait Administrateurs informatiquesqui ont passé tout leur week-end à essayer de résoudre le problème et de récupérer les clients et les serveurs cassés – nous parlons de centaines de milliers dans certains cas signalés, se sentent mieux face au fiasco.

Le lendemain, à 01h11 UTC le 20 juillet, CrowdStrike a publié quelques détails techniques à propos de l’accident.

Guerriers week-end

Microsoft, ce samedi, a publié un outil de récupérationqui a depuis été mis à jour avec deux options de réparation pour les terminaux Windows. L’une permettra de récupérer à partir de WinPE (l’environnement de préinstallation de Windows) et une seconde récupérera les appareils affectés à partir du mode sans échec.

Le dimanche 21 juillet, le fournisseur de terminaux en difficulté a commencé à émettre des instructions de récupération de manière centralisée. pôle d’orientation et de remédiationen commençant par l’aide aux hôtes affectés et en suivant la procédure de récupération des clés Bitlocker pour les machines redémarrées, ainsi que la marche à suivre pour les environnements cloud affectés. Il a également noté que, sur les 8,5 millions d’appareils Windows défectueux, “nombre significatif sont de nouveau en ligne et opérationnels.”

Le 22 juillet à 11h37 UTC, CrowdStrike a indiqué avoir testé une mise à jour du correctif initial et a noté que la mise à jour « a accéléré notre capacité à corriger les hôtes ». Elle a également indiqué aux utilisateurs un Vidéo Youtube avec des étapes sur la façon de remédier soi-même aux problèmes des ordinateurs portables Windows distants impactés.

D’ici le mercredi 24 juillet, le PDG de Sevco Security, JJ Guy estimé Le service Crowdstrike a été rétabli à environ 95 pour cent. Ce chiffre est basé sur l’analyse des données d’inventaire des agents effectuée par son entreprise.

Même si la grande majorité des points de terminaison ont été restaurés, la récupération complète peut prendre des semaines pour certains systèmes.

« Le problème est qu’il faudra de la main-d’œuvre pour accéder physiquement à un grand nombre de ces appareils », a déclaré Renfrow. Son entreprise a émis scripts de récupération gratuits pour les machines Windows défectueuses.

« Mais même avec nos scripts d’automatisation, cela ne nous permet d’économiser que 95 % du travail », a ajouté Renfrow. « Il reste donc les 5 % restants, qui doivent être physiquement présents. »

Alors que le processus de récupération se poursuit, Renfrow a déclaré qu’il s’attend à ce que CrowdStrike commence à envoyer du personnel de soutien sur les sites de ses clients.

« Je sais qu’ils ont fait appel à des partenaires qui disposent d’entités informatiques physiques capables de se rendre sur les sites des clients pour les aider, quels que soient leurs problèmes », a-t-il déclaré. « Je pense que c’est une mesure qu’ils vont prendre et je pense qu’ils vont en payer les frais. »

Mercredi également, le ministre malaisien du numérique a déclaré avoir demandé à CrowdStrike et à Microsoft de couvrir toute perte monétaire que les clients ont souffert à cause de la panne.

CrowdStrike n’a pas répondu à Le registreLes questions de l’entreprise sur l’incident, notamment si elle prévoyait d’indemniser les entreprises pour les dommages ou de payer le support informatique pour aider à récupérer les machines en panne. Les recours collectifs sont susceptibles d’être lancés prochainement.

En plus des défis juridiques, CrowdStrike fait également face à une enquête du Congrès, et Kurtz a été appelé à témoigner devant le Comité de la sécurité intérieure de la Chambre des représentants des États-Unis, à propos du rôle du fournisseur dans la panne informatique.

CrowdStrike peut-il récupérer ?

Le fiasco va probablement causer des dommages à la réputation de l’entreprise, mais l’ampleur de ces dommages et les éventuels impacts durables restent à déterminer et dépendent en grande partie de la réponse continue de CrowdStrike, selon l’analyste de Gartner Jon Amato.

« À court terme, ils vont devoir faire beaucoup d’efforts », a déclaré Amato. Le registre.

« Soyons réalistes : ils vont avoir des conversations très, très inconfortables avec les clients à tous les niveaux, des plus grandes entreprises et agences qui l’utilisent actuellement, jusqu’aux petites et moyennes entreprises », a-t-il poursuivi. « Je ne les envie pas. Ils vont avoir des conversations vraiment inconfortables et franchement pénibles. »

Cependant, a-t-il ajouté, le désastre technologique « est récupérable » et « je pense qu’ils ont un moyen de s’en sortir s’ils doivent continuer à être transparents et à communiquer avec un certain degré d’humilité ».

Frank Dickson, vice-président du groupe IDC en charge de la sécurité et de la confiance, a déclaré que CrowdStrike pourrait sauver sa réputation s’il admettait ses erreurs et mettait en œuvre de meilleures pratiques pour accroître la transparence dans le processus de mise à jour du logiciel.

Au cours des trois à six prochains mois, l’agence de cybersécurité « va clairement devoir modifier son processus de déploiement des mises à jour », a déclaré Dickson. Le registreCela comprend l’amélioration de ses tests logiciels et la mise en œuvre d’un déploiement progressif dans lequel les mises à jour sont progressivement poussées vers des segments plus importants de la base de capteurs, deux actions auxquelles CrowdStrike s’est engagé aujourd’hui.

« Le problème avec la plateforme de détection CrowdStrike, c’est qu’elle évolue de manière formidable, massive et très rapide », a déclaré Dickson. « Mais vous pouvez également faire évoluer une erreur logique très rapidement. Ils vont donc devoir mettre en œuvre des procédures pour s’assurer qu’ils commencent à procéder à un déploiement plus progressif, ils vont devoir formaliser cela, l’inscrire dans une politique et ils vont devoir le publier pour plus de transparence afin que tous les RSSI puissent désormais l’examiner. »

CrowdStrike n’est pas la première entreprise technologique à provoquer une catastrophe mondiale à cause d’une mise à jour ratée. Une mise à jour antivirus de routine de McAfee en 2010 de la même manière un nombre considérable de machines Windows. Le patron de CrowdStrike, Kurtz, à l’époque, était Directeur technique de McAfee.

Ce ne sera certainement pas le dernier problème logiciel, selon Amato.

« Cela n’aurait pas dû se produire », a-t-il déclaré. « Mais le fait est que les tests de logiciels, quelle que soit leur source et quel que soit le fournisseur, dépendent en fin de compte des humains. Et les humains, comme il s’avère, sont fragiles. »

Même les meilleures pratiques en matière de conception de logiciels peuvent échouer, et « CrowdStrike avait jusqu’à présent un excellent bilan en matière de qualité des produits », a noté Amato. « C’est ce que je retiens : cela aurait pu arriver à n’importe quelle organisation fonctionnant comme CrowdStrike. »

Il entend par là tout logiciel qui se connecte au noyau Windows et qui a un accès en profondeur aux systèmes d’exploitation. « C’est juste la malchance de CrowdStrike qui a fait que cela leur soit arrivé, à eux et à leurs clients. » ®

Comments

No comments yet. Why don’t you start the discussion?

प्रातिक्रिया दे

आपका ईमेल पता प्रकाशित नहीं किया जाएगा. आवश्यक फ़ील्ड चिह्नित हैं *