اختلال CrowdStrike چه درس‌هایی درباره ریسک سایبری به ما می‌دهد؟ (HBR)

اختلال کراوداسترایک چه درس‌هایی درباره ریسک سایبری به ما می‌دهد

این مقاله در مجله کسب و کار هاروارد منتشر شده که منبعی معتبر و ارزشمند در حوزه کسب و کار است.

نویسنده: رافائل یاهالوم

ترجمه شده توسط تیم گیت (Git.ir)

...

در تاریخ 19 جولای 2024، تنها یک به‌روزرسانی محتوایی از سوی شرکت CrowdStrike، ارائه‌دهنده نرم‌افزارهای امنیت سایبری، باعث از کار افتادن بیش از 8.5 میلیون سیستم شد. این اختلال، فعالیت هزاران سازمان در سراسر جهان از جمله صدها شرکت حاضر در فهرست Fortune 1000 را برای چندین روز مختل کرد. این رویداد که به «اختلال کراوداسترایک» معروف شد، زیانی بیش از 5 میلیارد دلار به همراه داشت. همچنین برآورد می‌شود شرکت‌های بیمه حدود 1.5 میلیارد دلار بابت خسارات ناشی از توقف کسب‌وکار، ریسک‌های سایبری و اختلال سیستم‌ها پرداخت کرده باشند.

این اتفاق یکی از بزرگ‌ترین نمونه‌ها از اثرات منفی تجمیع ریسک‌های سایبری محسوب می‌شود. در اکتبر 2024، شرکت Delta که یکی از کسب‌وکارهای آسیب‌دیده از این حادثه بود، علیه CrowdStrike شکایتی تنظیم کرد و این اختلال را «فاجعه‌بار» توصیف کرد. این شرکت هواپیمایی مدعی شد که این مشکل ناشی از «اعمال اجباری به‌روزرسانی‌های آزمایش‌نشده برای مشتریان» بوده و باعث اختلال در 7,000 پرواز و آسیب به 1.3 میلیون مسافر طی پنج روز شده است. Delta میزان خسارت خود را بیش از 500 میلیون دلار اعلام کرد.

در مقابل، CrowdStrike ضمن پذیرش اینکه ریشه مشکل به یک خطا در به‌روزرسانی نرم‌افزاری بازمی‌گردد، اعلام کرد که «ادعاهای Delta بر پایه اطلاعات نادرست و ردشده است، نشان‌دهنده درک ناکافی از نحوه عملکرد امنیت سایبری مدرن است و تلاشی ناامیدانه برای انتقال مسئولیت از ناتوانی این شرکت در به‌روزرسانی زیرساخت‌های قدیمی فناوری اطلاعات خود به دیگران محسوب می‌شود.»

در این مقاله بررسی می‌کنیم که مدیران و رهبران سازمانی چه درس‌هایی می‌توانند از این رویداد بگیرند. همچنین پیامدهای این اختلال بر وضعیت جهانی مدیریت ریسک سایبری را تحلیل کرده و توضیح می‌دهیم که سازمان‌ها برای جلوگیری از رخدادهای مشابه باید چه رویکردهایی را در پیش بگیرند.

شرکت‌ها آماده نیستند

با وجود پیشرفت در راهکارهای امنیت سایبری و افزایش سرمایه‌گذاری سازمان‌ها در این حوزه، تعداد حملات سایبری و شدت پیامدهای آن‌ها همچنان در حال افزایش است.

طبق گزارش «هزینه نقض داده ۲۰۲۴» شرکت IBM، میانگین هزینه هر نقض داده در سال ۲۰۲۴ به ۴.۸۸ میلیون دلار رسیده که نشان‌دهنده رشد ۱۰ درصدی است. همچنین گزارش سالانه «نقض داده» شرکت Verizon در سال ۲۰۲۴، ۳۰٬۴۵۸ حادثه امنیت سایبری را بررسی کرده که از این میان، ۱۰٬۶۲۶ مورد به‌عنوان نقض داده تأیید شده‌اند—رقمی بی‌سابقه.

یک نظرسنجی اخیر در بازار ریسک سایبری که توسط Milliman انجام شده، شکاف‌های مهمی را شناسایی کرده که پیامدهای قابل‌توجهی برای بازار دارند:

  • بازار بسیار پراکنده امنیت سایبری: وجود راهکارهای متعدد با قابلیت محدود در یکپارچه‌سازی آن‌ها برای دستیابی به یک مدیریت جامع و قابل‌اتکا در حوزه ریسک سایبری.

  • تصمیم‌گیری‌های مبتنی بر داده‌های پراکنده: استفاده از امتیازهای سایبری، ارزیابی‌های محلی و پرسش‌نامه‌ها بدون داشتن دیدگاه یکپارچه و سراسری نسبت به ریسک سایبری.

  • ارزیابی ناکارآمد تمرکز ریسک سایبری: ناتوانی در شناسایی وابستگی‌های سایبری که برای تشخیص ریسک‌های سیستمی و تجمیع ریسک ضروری هستند.

  • بازار نرم بیمه سایبری: روش‌های ارزیابی ریسک در بیمه سایبری به‌دلیل کمبود داده‌های تاریخی، تغییر سریع تهدیدات و وابستگی زیاد به قضاوت‌های ذهنی، به‌سختی قابل اتکا هستند.

  • شفافیت محدود ریسک سایبری در سازمان‌ها: مدیریت ریسک سایبری در زنجیره تأمین به چالشی جدی تبدیل شده و کمبود دیدپذیری، کیفیت تصمیم‌گیری را تحت تأثیر قرار داده است.

  • چالش‌های جدید ناشی از فناوری‌های نوظهور: فناوری‌هایی مانند هوش مصنوعی، رایانش کوانتومی و رایانش ابری باعث افزایش عدم‌قطعیت و پیچیدگی در ریسک‌های سایبری و الزامات مقرراتی شده‌اند.

حادثه CrowdStrike نمونه‌ای روشن از تمام این شکاف‌هاست. در ادامه، با استفاده از این رویداد، چهار پرسش اساسی را مطرح می‌کنیم که باید بخشی از ارزیابی‌های مستمر ریسک سایبری در هر سازمان باشند. این پرسش‌ها نه‌تنها در این حادثه به‌درستی مورد توجه قرار نگرفتند، بلکه صنعت نیز هنوز ابزارها و روش‌های مناسبی برای پاسخ‌گویی کامل به آن‌ها در اختیار ندارد.

چهار پرسش کلیدی درباره ریسک سایبری

۱. سطح ریسک یک به‌روزرسانی محتوایی CrowdStrike چقدر است؟ (آیا ریسک کلی را کاهش می‌دهد یا افزایش می‌دهد؟)

نرم‌افزار Falcon شرکت CrowdStrike یکی از پیشروترین راهکارهای امنیت سایبری در بازار است. «به‌روزرسانی‌های محتوایی» مکانیزمی هستند که این شرکت از طریق آن، سیستم‌های نصب‌شده در نقاط پایانی (Endpoint) را به‌سرعت با الگوهای جدید تهدیدات سایبری هماهنگ می‌کند. هدف این به‌روزرسانی‌ها، افزایش سطح حفاظت کلی سیستم‌هاست.

با توجه به ظهور سریع تهدیدات جدید، CrowdStrike ممکن است روزانه چندین به‌روزرسانی منتشر کند. از زمان عرضه Falcon در سال ۲۰۱۳، هزاران به‌روزرسانی برای مشتریان در سراسر جهان ارائه شده که تقریباً هیچ مشکل قابل‌توجهی گزارش نشده است.

با این حال، ریسک مرتبط با هر به‌روزرسانی هرگز صفر نیست. همواره این احتمال وجود دارد که یک باگ نرم‌افزاری فعال شود و باعث اختلال یا پیامدهای منفی شود. بنابراین، ریسک اجرای یک به‌روزرسانی باید در مقایسه با ریسک‌هایی که آن به‌روزرسانی حذف یا کاهش می‌دهد، ارزیابی شود. در حال حاضر، روش‌های سیستماتیک و کمیِ مؤثر برای انجام چنین تحلیلی هنوز به‌طور کامل توسعه نیافته‌اند.

در شکایت شرکت دلتا علیه CrowdStrike، در اشاره به این به‌روزرسانی، ادعاهایی از این دست مطرح شد:

  • «CrowdStrike با نصب این تغییر (exploit) در سیستم‌های دلتا بدون اطلاع یا اجازه، در عملکرد برنامه‌ها و شبکه‌های کامپیوتری دلتا اختلال ایجاد کرده است.»

  • و اینکه: «دلتا بیش از ۵۰۰ میلیون دلار زیان مستقیم به‌دلیل این به‌روزرسانی معیوب متحمل شده، علاوه بر آسیب به اعتبار و کاهش درآمدهای آتی.»

اما در این ادعاها اشاره‌ای نشده است به این واقعیت که هزاران مورد از این «تغییرات» (به‌روزرسانی‌های محتوایی) از زمان همکاری دلتا با CrowdStrike در سال ۲۰۲۲، با موفقیت در سیستم‌های این شرکت اجرا شده‌اند. همچنین به ارزش تجاری قابل‌توجه این به‌روزرسانی‌ها—در قالب افزایش سطح حفاظت در برابر حملات سایبری—هیچ اشاره‌ای نشده است.

۲. ریسک به‌روزرسانی CrowdStrike چگونه باید به‌صورت بهینه مدیریت شود؟ (اجرای فوری یا با تأخیر؟)

پاسخ به این سؤال به ماهیت به‌روزرسانی و ویژگی‌های سیستم هدف (و اهمیت آن برای کسب‌وکار) بستگی دارد. این تصمیم نیازمند ایجاد یک توازن دقیق، سیستماتیک و قابل‌اندازه‌گیری میان دو نوع ریسک است: از یک‌سو، ریسک پیامدهای منفی ناشی از یک به‌روزرسانی معیوب (که با افزایش تأخیر در اجرا کاهش می‌یابد) و از سوی دیگر، ریسک حملات سایبری در صورت عدم استفاده از به‌روزرسانی (که با افزایش تأخیر بیشتر می‌شود).

در شکایت اکتبر ۲۰۲۴، دلتا ادعا کرد:

«زمانی که CrowdStrike به‌روزرسانی معیوب را منتشر کرد، حتی آن را به‌صورت اجباری برای مشتریانی مانند دلتا که به‌روزرسانی خودکار را غیرفعال کرده بودند نیز اعمال کرد. دلتا عمداً این گزینه را فعال نکرده بود تا بتواند کنترل‌های لازم برای مدیریت تغییرات و اثرات آن‌ها بر سیستم‌ها و شبکه‌های خود را حفظ کند.»

در واقع، CrowdStrike به‌روزرسانی‌های محتوایی خود را به‌عنوان رویدادهایی بدون ریسک در نظر گرفته بود. اما پس از حادثه ۲۰۲۴، این شرکت متوجه خطای خود در مدیریت ریسک شد و فرایند استقرار به‌روزرسانی‌ها را اصلاح کرد تا نشان دهد این به‌روزرسانی‌ها نیز دارای سطحی از ریسک هستند که باید مدیریت شود.

افزایش شفافیت و کنترل مشتریان در این زمینه ضروری است. بااین‌حال، صنعت هنوز با این چالش مواجه است که چه اطلاعاتی باید ارائه شود و مشتریان چگونه می‌توانند از این اطلاعات برای تصمیم‌گیری همسو با ریسک کسب‌وکار خود استفاده کنند.

۳. چگونه می‌توان سطح بهینه‌ای از تاب‌آوری کسب‌وکار را در صورت بروز خطا در به‌روزرسانی تضمین کرد؟

پاسخ به این سؤال نیازمند یک تحلیل دقیق و سیستماتیک از تمام وابستگی‌های سایبری است. در حال حاضر، صنعت فاقد روش‌های مؤثر برای چنین تحلیل‌هایی است و بسیاری از بحث‌ها در این حوزه مبهم و غیرشفاف هستند.

برای مثال، دلتا در شکایت خود ادعا کرد که CrowdStrike می‌دانسته اقداماتش ممکن است به سیستم‌ها و شبکه‌های دلتا آسیب بزند. با این حال، حتی پیشرفته‌ترین فرایندهای توسعه، تست و تأیید نیز ممکن است گاهی به خروجی‌های معیوب منجر شوند.

دلتا جزئیات مشخصی درباره سطح تاب‌آوری زیرساخت خود ارائه نکرد و تنها به اظهارات کلی مانند سرمایه‌گذاری میلیاردی در فناوری و شهرت در خدمات مشتری اشاره کرد.

در مقابل، CrowdStrike و Microsoft نیز به‌طور غیرمستقیم ادعا کردند که زیرساخت دلتا نسبت به سایر شرکت‌های هواپیمایی کمتر مدرن بوده و همین موضوع باعث طولانی‌تر شدن زمان بازیابی شده است.

با این حال، هیچ‌یک از طرفین تحلیل دقیق و قابل‌مقایسه‌ای ارائه نکردند. برای دستیابی به نتایج معتبر، چنین تحلیل‌هایی باید به‌صورت ساختاریافته و قابل‌اندازه‌گیری انجام شوند.

همچنین، هر دو شرکت CrowdStrike و Microsoft اعلام کردند که مدیران عامل آن‌ها تلاش کرده‌اند مستقیماً با مدیرعامل دلتا تماس بگیرند تا در روند بازیابی کمک کنند. هرچند این اقدام قابل‌تقدیر است، اما مشخص نیست چنین مداخلاتی در سطح مدیرعامل تا چه حد در شرایطی که باید فرایندهای خودکار بازیابی فعال شده باشند، مؤثر بوده است.

۴. چگونه می‌توان پاسخ‌گویی (Accountability) در قبال خسارات را تضمین کرد؟

CrowdStrike به‌سرعت مسئولیت به‌روزرسانی معیوب را پذیرفت و از بازار عذرخواهی کرد. اما در خصوص مسئولیت مالی، این شرکت اعلام کرد که تعهد قراردادی آن محدود به چند میلیون دلار است و بخش عمده خسارات ناشی از ضعف در تاب‌آوری سایبری مشتریان است.

اگرچه اختلافات خاصی مانند پرونده دلتا در دادگاه حل‌وفصل خواهند شد، اما به‌طور کلی مرزهای مسئولیت و جریان اطلاعات در حوزه ریسک سایبری به‌خوبی تعریف نشده و اغلب مبهم است.

علاوه بر این، وابستگی به چندین طرف ثالث، مسئله پاسخ‌گویی را پیچیده‌تر می‌کند. برای مثال، نقش Microsoft در این ماجرا نیز محل بحث است: ارتباط میان تعهد این شرکت برای تست و تأیید نرم‌افزارهای سطح کرنل ویندوز و بروز این اختلال دقیقاً چیست؟

دلتا ادعا کرده که Microsoft نیز ممکن است در انجام تعهدات خود کوتاهی کرده باشد، در حالی که Microsoft به وابستگی‌های زیرساختی دلتا به شرکت‌هایی مانند IBM و Amazon اشاره کرده است.

به‌طور کلی، تعیین مسئولیت در ریسک‌های سایبری نیازمند چارچوب‌های تحلیلی دقیق و ساختاریافته‌ای است که هنوز به‌طور کامل در صنعت توسعه نیافته‌اند.

مسیر پیش رو: مدیریت ریسک سایبری قابل‌توضیح (Explainable)

اگرچه حادثه CrowdStrike یک حمله سایبری واقعی نبود، اما ویژگی‌ها و درس‌های مشترک زیادی برای تمامی سازمان‌ها در مواجهه با سناریوهای ریسک دیجیتال—چه ناشی از خطا و چه ناشی از حمله—به همراه دارد.

سازمان‌ها باید قابلیت‌های لازم را برای انجام اقدامات زیر توسعه دهند:

  • تحلیل سناریوهای «اگر چنین شود» (What-if): ارزیابی پیامدهای بالقوه یک رویداد سایبری در زنجیره تأمین—اعم از مستقیم یا تشدیدشده. بسیاری از سازمان‌ها، از جمله دلتا، احتمالاً پیش از وقوع، سناریوهایی مانند اختلال ناشی از به‌روزرسانی معیوب را در نظر نگرفته بودند.

  • تعریف اهداف و فرایندهای تاب‌آوری سایبری: ایجاد سازوکارهای مشخص برای مواجهه با رویدادهای سایبری مهم در زنجیره تأمین. تفاوت چشمگیر در زمان بازیابی و میزان خسارت میان سازمان‌ها نشان می‌دهد که بسیاری از آن‌ها فاقد آمادگی کافی بوده‌اند.

  • پایش مستمر ریسک و وابستگی‌ها: ارزیابی مداوم احتمال وقوع رویدادهای سایبری و ارتباط میان آن‌ها (داخلی و خارجی) و انجام اصلاحات به‌موقع. در این حادثه، به نظر می‌رسد CrowdStrike احتمال بروز خطا در به‌روزرسانی‌های خود را به‌درستی ارزیابی نکرده بود.

  • ایجاد شفافیت از طریق ارتباط مؤثر: ارائه اطلاعات کافی برای تصمیم‌گیری بهتر در مدیریت ریسک سایبری. اقدام CrowdStrike در فراهم‌کردن امکان کنترل زمان اجرای به‌روزرسانی‌ها گامی مثبت بود، اما همچنان نیاز به ارائه اطلاعات دقیق‌تر درباره سطح ریسک هر به‌روزرسانی وجود دارد.

  • تعریف دقیق مسئولیت‌ها: تعیین مرزهای روشن پاسخ‌گویی میان طرف‌های مختلف در سناریوهای ریسک سایبری. این حادثه نشان داد که ابهام‌های جدی در مسئولیت‌ها و انتظارات میان ذی‌نفعان وجود دارد.

اکثر راهکارهای فعلی امنیت سایبری در سازمان‌ها بر بخش‌های محدود و موضعی تمرکز دارند و نمی‌توانند دیدی جامع، سیستماتیک و قابل‌اتکا از ریسک سایبری ارائه دهند. به همین دلیل، نیاز به یک پارادایم جدید تحت عنوان «مدیریت ریسک سایبری قابل‌توضیح» وجود دارد.

این رویکرد باید امکان تحلیل سناریومحور ریسک سایبری را فراهم کند و ارتباط میان رویدادهای سایبری و پیامدهای کسب‌وکار را به‌صورت شفاف نشان دهد. برای مثال، در مورد رویدادهایی مانند اختلال CrowdStrike، چنین رویکردی می‌تواند به سازمان‌ها کمک کند تا پیامدهای احتمالی یک به‌روزرسانی معیوب را پیش‌بینی کرده و میان اقدامات پیشگیرانه و بازیابی، تعادل بهینه برقرار کنند.

در نهایت، ایجاد سطح بالاتری از اعتماد میان کاربران و ارائه‌دهندگان خدمات ضروری است. خطاهای ناخواسته فناوری اجتناب‌ناپذیرند و حملات سایبری نیز با گسترش فناوری‌های دیجیتال پیچیده‌تر و گسترده‌تر خواهند شد. بنابراین، سازمان‌ها به رویکردهایی نیاز دارند که شفاف، ساختاریافته، قابل‌دفاع و در عین حال چابک باشند.

نکات کلیدی

  • افزایش نقض داده و اختلالات سیستمی: این رویدادها با پیامدهای مالی و عملیاتی سنگینی همراه هستند.

  • مدیریت ریسک پراکنده: بسیاری از سازمان‌ها فاقد رویکرد یکپارچه برای ارزیابی و کنترل ریسک سایبری هستند.

  • ریسک در به‌روزرسانی‌های نرم‌افزاری: حتی به‌روزرسانی‌های امنیتی نیز می‌توانند باعث اختلال شوند و نیازمند کنترل دقیق‌تر هستند.

  • تفاوت در تاب‌آوری سازمان‌ها: سازمان‌هایی با زیرساخت قوی‌تر سریع‌تر بازیابی می‌شوند، در حالی که دیگران آسیب‌های طولانی‌تری می‌بینند.

  • ابهام در مسئولیت‌ها: نقش و مسئولیت ارائه‌دهندگان و مشتریان در مدیریت ریسک سایبری هنوز به‌وضوح مشخص نیست.

  • ضرورت مدیریت ریسک قابل‌توضیح: استفاده از تحلیل‌های سناریومحور برای پیش‌بینی و کاهش ریسک‌های آینده ضروری است.

برای ثبت دیدگاه وارد حساب کاربری خود شوید.