ابر آروان در روزهای پایانی اسفند با هدف تخریب و حذف اطلاعات مشتریان تحت حملات سایبری قرار گرفت و کسب و کارهای آنلاین با مشکلاتی مواجه شدند. حالا گزارش اولیه ابر آروان از حمله و روند بازگرداندن سرویسهای مشتریان رایانش ابری در دیتاسنتر IR-THR-AT1 منتشر شده است.
این حملات در فعالیت سایر محصولات آروان شامل DNS، CDN، ویدیو پلتفرم، فضای ذخیرهسازی ابری، همچنین رایانش ابری در سایر دیتاسنترهای ابر آروان اختلالی ایجاد نکرده و در حدود ۱۶٪ از مشتریان آروان را متاثر کرده است.
نشانههایی از این حملات در روزهای یکشنبه و دوشنبه ۲۴ و ۲۵ اسفند دیده و منجر به بروز اختلالات محدودی شد اما با آغاز حملات گسترده و متفاوت جدید در شامگاه سهشنبه و آسیبرسانی به دیتای مشتریان در این دیتاسنتر، مجبور به قطع تمام دسترسیها، بهمنظور جلوگیری از پیشروی آسیبرسانی شدیم.
از تمام کسبوکارهای آسیبدیده در این مشکل، عذرخواهی میکنیم. آگاهیم که قطعی و اختلال سرویس در پیک ترافیکی شب عید، چه پیامدهایی برای آنها به همراه داشته است و عمیقا بابت این اتفاق متاسفیم.
در فرآیند این بحران تلاش کردیم روند بروز مشکل و فرآیند حل مساله را از راههای ایمیل، پیامک، سایت و بلاگ، همچنین شبکههای اجتماعی ابر آروان به آگاهی کاربران برسانیم.
ابر آروان بهعلت اینکه همچنان در حال کالبدشکافی (Forensics) ابعاد نفود است، امکان به اشتراکگذاری اطلاعات فنی نوع حمله را ندارد. گزارش فنی نوع حمله پس از پایان فرآیند کالبدشکافی با جزییات کامل منتشر خواهد شد.
یکشنبه ۲۴ اسفند – آغاز ماجرا
ساعت ۱۱:۳۳ یکشنبه شب، یک incident روی دو سوییچ در یک VPCدر دیتاسنتر IR-THR-AT1 ابر آروان مشاهده شد، برآورد اولیه تیم فنی اشکال سختافزاری بود که با بازیابی سوییچها مشکل برطرف شد.
دوشنبه ۲۵ اسفند – شناسایی امکان حمله سایبری
در ساعت ۴ صبح دوشنبه، دوباره اختلال روی سوییچهای IR-THR-AT1 اتفاق افتاد. بهدلیل تکرار الگو، احتمال حملهی سایبری داده شد.
از این زمان تا ساعت ۷ صبح روز بعد، تیمهای ابر آروان روی موضوع کار کردند و در چند ساعت اول موفق شدند سیستم را به حالت طبیعی برگردانند.
سپس برای جلوگیری از حملهی احتمالی، تغییراتی در شبکهی مدیریتی دیتاسنترهای IR-THR-AT1 و IR-THR-MN1 و NL-AMS-SR1 انجام شد، اما کارشناسانی که به دیتاسنتر IR-THR-AT1 اعزام شده بودند بهدلیل خستگی، در اعمال تغییرات در شبکهی این دیتاسنتر دچار اشتباه شدند و فقط بخشی از تغییرات را اعمال کردند.
سهشنبه ۲۶ اسفند – حمله گسترده و آسیبرسانی به دیتای مشتریان
در حالیکه تیمهای امنیتی به هر دو دیتاسنتر برای بررسی دقیق اعزام شده بودند در ساعت ۵:۳۰ عصر بهشکل ناگهانی از طریق همان بخشی از شبکهی مدیریتی که همچنان فعال بوده، دیتاسنتر IR-THR-AT1 مورد حمله قرار میگیرد.
این حملات ساعت ۸ شب با حجم بسیار بالایی ادامه پیدا میکند و تعدادی از سرورهای ذخیرهسازی و پردازشی با هدف حذف کامل اطلاعات مورد حمله قرار میگیرند. با آغاز آسیبرسانی به دیتای مشتریان، تمام دسترسیها به این دیتاسنتر قطع شد تا از توسعهی آسیبرسانی جلوگیری شود؛ بلافاصله اینترنت و شبکهی مدیریتی، هر دو بهشکل کامل قطع و علاوهبر کارشناسان امنیتی، کارشناسان و اعضای تیم فنی به محل دیتاسنتر اعزام میشوند تا بدون نیاز به دسترسی از راه دور -که ریسک گسترش یا تکرار حمله را افزایش میداد- به بررسی موضوع بپردازند.
در این حملات، هکر هیچگونه دسترسی به دیتای مشتریان ابر آروان پیدا نکرد و با توجه به نوع ذخیرهسازی اطلاعات در آن لایه، تنها موفق به آسیب زدن به اطلاعات و پاک کردن بخشی از دیتا شده بود.
ابر آروان برای حفظ پایداری، از هر داده (آبجکت) سه نسخهی مختلف در سه دیسک متفاوت در داخل سه سرور مختلف نگهداری میکند، تا اگر یک یا چند دیسک یا حتا یک یا چند سرور از دسترس خارج شوند، به دادهها آسیبی وارد نشود. اما در حملهی اتفاق افتاده، بهشکل همزمان تعداد بالایی سرور مورد آسیب قرار گرفتند، این موضوع سبب شد، علاوهبر حذف حدود ۱۰۰ ترابایت از یک پتابایت اطلاعات این دیتاسنتر، برخی اطلاعات، هر ۳ نسخهی خود را از دست بدهند.
در تحلیل اولیه مشخص شد که از مجموع بیش از ۹۷درصد اطلاعات، حداقل یک نسخه از اطلاعات وجود دارد. اما بهدلیل توزیعشدگی سهدرصد اطلاعات حذف شده در تمام کلاستر، زیرساخت ذخیرهسازی در ریسک از دست رفتن کل اطلاعات قرار گرفت.
ادامه سهشنبه شب – تشکیل کمیته بحران
بلافاصله با تشکیل تیم بحران درصدد حل مشکل و همزمان اطلاعرسانی به کاربران برآمدیم.
در کنار تیمهای پشتیبانی، مشتریان و اطلاعرسانی، در این مرحله، چهار تیم فنی شکل گرفت:
- تیم یک: مسوول مراقبت از دیتاسنتر IR-THR-MN1 برای پیشگیری از اتفاق مشابه
- تیم دو: کار متمرکز روی استورج دیتاسنتر IR-THR-AT1 برای برگرداندن ۱۰۰ ترابایت اطلاعات و پایدارسازی کلاستر ذخیرهسازی
- تیم سه: کار متمرکز روی کل زیرساخت رایانش ابری در IR-THR-AT1 تا بهمحض رفع اشکال فضای ذخیرهسازی، سرویس دوباره به مدار برگردد.
- تیم چهار: مسوول کالبدشکافی (Forensics) و ایمنسازی (Hardening)
با پیشبینی آسیب به دیتای کاربران و زمانبر بودن بازگشت سرویس، از کاربران خواسته شد برنامه Disaster Recovery خود را فعال کنند تا اگر از دادههای خود نسخهی پشتیبان تهیه کردهاند، با استفاده از آن در سایر دیتاسنترهای آروان یا دیگر فراهمکنندگان زیرساخت، سرویس خود را مجدد راهاندازی کنند.
بهرغم تاکید به «پشتیبانگیری اطلاعات حیاتی از سوی مشتری» در متن «شروط فنی استفاده از خدمات زیرساخت رایانش ابری آروان»، بسیاری از کاربران با آروان تماس گرفته و اعلام کردند که نسخهی پشتیبانی در دست ندارند.
چهارشنبه ۲۷ اسفند – بازگشت اطلاعات
پس از حدود ۳۰ ساعت کار پر استرس، با فیکسکردن و یکپارچهسازی داده در سطح کلاستر، امکان دسترسی به اطلاعات در ساعت ۱۰:۳۰ صبح چهارشنبه فراهم شد. در این زمان حدود ۹۷.۳درصد از اطلاعات برگردانده شده بود.
از این نقطه، کار سختتر تیم آغاز شد، چون آسیب و اختلال آن سهدرصد اطلاعات میتوانست سبب از بین رفتن کل کلاستر و بازیابی ناموفق شود.
از این زمان، تیم بر اصلاح یکپارچگی داده متمرکز شد تا کلاستر بالا بیاید.
- مشکل نخست: باید دقت شود که این سهدرصد دیتای از دست رفته، مربوط به سهدرصد از مشتریان نبود بلکه سهدرصد از اطلاعات تمام مشتریان این دیتاسنتر است؛ پس احتمالن اکثریت مشتریان بخش ناچیزی از اطلاعاتشان آسیبدیده بود. از طرفی گاهی این بخش ناچیز ممکن است با اثرگذاری بر پارتیشن بوت مانع بالا آمدن ابرک شود یا با ایجاد مشکل در پارتیشن سیستم، کار سیستمعامل را با اخلال مواجه کند یا با قرار گرفتن در دیتابیس کاربر، آن را از کارکرد عادی بازدارد.
- مشکل دوم: بهطور کلی قطع ناگهانی سیستمعاملها از استورج سبب افزایش احتمال آسیبدیدگی میشود.
پنجشنبه ۲۸ اسفند – حل مشکلات در ریکاوری و بازکردن دسترسی مشتریان/ سطح آسیب به سرورهای ابری
تا ساعت ۴ صبح روز پنجشنبه دو مشکل گفته شده تقریبن حل شدند؛ کلاستر بالا آمد و تیمهای دیگر هم کارشان تمام شده بود. از این ساعت، بهمرور دسترسی مشتریان به سرورهای ابری باز شد.
متاسفانه با بازشدن دسترسی به پاپسایت و بررسی دقیقتر وضعیت ابرکها مشخص شد حذف کمتر از سه درصد از اطلاعات کل دیتاسنتر، سبب تاثیرگذاری روی بخش گستردهای از سرورهای ابری شده است.
میزان سکتورهای آسیبدیده در Block Storage متصل به ابرک، همچنین نوع فایلسیستم، سیستمعامل و پایگاه دادهها سبب میشد که سطح آسیبپذیری طیف گستردهای داشته باشد.
در چنین موقعیت، هر کدام از سیستمعاملها رفتار متفاوتی دارند، از بین سیستمعاملهای ویندوز و نسخ مختلف لینوکس و فایلسیستمهایشان، برخی سادهتر و برخی با سختی بیشتر ریکاوری میشوند. همزمان با بهکارگیری روشهای بازیابی سیستمعاملها، مقالهی آموزشی آنها نیز منتشر میشد.
در میان فایلسیستمهای مشتریان ابر آروان، EXT4 سازگارتر و XFS و NTFS آسیبپذیرتر بودند.
در این لحظه امکان اعلام آمار دقیق از سطح آسیب به ابرکها وجود ندارد، بخشی از ابرکها بدون هیچاقدامی امکان استفاده داشتند، بخش دیگری با Reboot و درنهایت ترمیم boot loader به مرحلهی استفاده میرسیدند و برخی نیاز به ترمیم فایلسیستم یا ریکاوریهای پیشرفتهتر دارند.
ادامه پنجشنبه – افزایش ۴ برابری ظرفیت تیم پشتیبانی به ۸۰ نفر
از ظهر روز چهارشنبه، تمام خطوط تلفنی ابر آروان و تمام ظرفیت تیم پشتیبانی برای پاسخگویی به مشتریان بهکار گرفته شده بودند. با بازگشایی دسترسی کاربران در صبح روز پنجشنبه، ظرفیت تیم پشتیبانی با حمایت تیمهای فنی و تیمهای کوچ ابری، چهار برابر شد.
مشتریان فعال ابر آروان در دیتاسنتر IR-THR-AT1 در حدود ۷۰۰۰سرور ابری داشتند که تعداد ۱۱۰۰ سرور ابری از سوی مشتریان برای بررسی به تیمهای فنی ابر آروان ارجاع شدند. از این تعداد، تاکنون مشکل ۳۰ درصد حل شده و مابقی همچنان در فرآیند حل مساله قرار دارند.
بهرغم افزایش ظرفیت و پاسخگویی ۲۴ ساعته، حجم بالای مشتریان نیازمند کمک سبب شد فرآیند پاسخگویی و حل مسالهی آنان با کندی همراه باشد. در ادامه مشکلات پیشآمده در کلاستر در مقاطعی، فرآیند بازیابی را متوقف کرد.
ادامه پنجشنبه – پرداخت جبران خسارت (SLA) به تمام مشتریان زیاندیده با فرض حل مشکلات/ فراهم آوردن زیرساخت رایگان فضای ذخیرهسازی ابری برای تسهیل فرآیند پشتیبانگیری کاربران
با تصور پایداری کلاستر ذخیرهسازی در روز پنجشنبه، محاسبهی مدت زمان دردسترس نبودن سرویس به نسبت هزینهی ماهانهی هر یک از مشتریان انجام، مبلغ آن محاسبه و بالاتر از سقف جبران خسارت تعهد شده، به کیف پول کاربران واریز شد.
بهعلاوه مبلغی که در روزهای قطعی از کیف پول کاربران کم شده بود، به حساب آنان برگردانده شد.
همچنین فضای ذخیرهسازی ابری تا پایان فروردین ۱۴۰۰ بهشکل رایگان در اختیار تمام مشتریان دیتاسنتر IR-THR-AT1 ابر آروان قرار گرفت تا در فرآیند پشتیبانگیری با مشکل فضای ذخیرهسازی مواجه نباشند.
نیاز به یادآوری است که قرارداد جبران خدمت متناظر برای جبران زیان زیرساختی است که سطح و میزان پوشش آن در شرایط استفاده و قراردادهای ابر آروان آمده است. اما ابر آروان براساس تجربهی این اتفاق و عدم پشتیبانگیری دیتا از سوی تعداد بالایی از مشتریان، در تلاش است مجموعه اقدامات پیشگیرانهای را بهمنظور سهولت تهیهی نسخه پشتیبان، از سوی مشتریان در آینده فراهم کند.
متاسفانه روند روزهای آتی مشخص کرد که کلاستر ذخیرهسازی با مشکلاتی همراه است.
برای آن دسته از مشتریانی که پس از بازگشت هزینهی روزهای قطعی، همچنان برای دسترسی به ابرک خود با اختلال روبهرو هستند، پس از پایان حل مشکل، محاسبه مجدد انجام و به حساب آنان واریز خواهد شد.
جمعه ۲۹ اسفند – حجم درخواست بسیار بالای کاربران همزمان برای بازیابی اطلاعات و بروز مشکلات زیرساختی
روز جمعه، همزمان حجم بالایی از کاربران برای درست کردن فایلسیستم یا پشتیبانگیری دیتا مشغول به کار شدند. بهدلیل مشکلات پیشآمده و ریکاور کردن کلاستر ذخیرهسازی در یک فشار زمانی کوتاه، کلاستر موفق به تهیهی سه نسخه از تمام دادهها نشده بود، همچنین برای ساخت ابرکهای جدید برای انتقال اطلاعات روی آن نیاز به فضای بیشتر بود و در نتیجه باید ظرفیت کلاستری که بهسختی آسیبدیده بود نیز افزایش پیدا میکرد. برای رفع این مشکل، به میزان ۴۰۰ ترابایت استورج به کلاستر اضافه شد.
تزریق منابع جدید، یعنی وزندهی دوبارهی دیسکها (Rebalance ) که سبب درگیری شدید زیرساخت و قفل شدن کلاستر میشود. به همین دلیل، در روز ۲۹ اسفند، وضعیت بحرانیتر شد.
تیم فنی آروان که در بخش طراحی و مدیریت کلاستر ذخیرهسازی فعالیتمیکنند، یک تیم باتجربه و متخصص است، اما وضعیت حساس مشتریان ما در موقعیتی بود که برای سرعتبخشی به فرآیندها از هر کمکی استفاده میکردیم؛ در این مقطع چند متخصص باتجربهی ایرانی برای انتقال تجربه، در کنار تیم ابر آروان قرار گرفتند، اما همچنان بهبودی در وضعیت کلاستر ایجاد نشد.
شنبه ۳۰ اسفند و یکشنبه ۱ فروردین – کمک تیمهای آلمانی و ترکی و تداوم وضعیت کلاستر
در روزهای شنبه و یکشنبه، تلاش برای بهبود زیرساخت بهمنظور انجام سریعتر ریکاوری در حال انجام بود، با توجه به اینکه پارامترهای مختلفی از جمله زیرساخت شبکه، پارامترهای سیستمعامل و کانفیگ زیرساخت ذخیرهسازی بهطور مشترک نیازمند تغییر و بهبودسازی بود، فرآیند بازیابی سرورهای ابری متوقف و تمام تمرکز روی بهبود زیرساخت گذاشته شد.
در این مرحله با توجه به حجم بسیار بالای ریکاوری و فشار روی کلاستر و عدم تاثیرگذاری کانفیگهای انجام شده از تیمهای متخصص آلمانی و ترکی برای کمک استفاده شد که اقدامات آنان نیز تاثیر چشمگیری در بهبود وضعیت نداشت.
دوشنبه ۲ فروردین – تلاش برای رفع مشکل کلاستر از طریق رفع اشکال نرمافزاری و اقدامات اولیه برای راهاندازی کلاستر جدید
بهطور خلاصه میتوان گفت مشکل اصلی کلاستر ذخیرهسازی تاثیر تسلسل دو مشکل ReMirroring-Storm و یک Memory Leak در لایهی نرمافزاری Ceph در شرایط خاص است، این مشکل همافزا سبب به اغما رفتن کلاستر میشود.
پس از تلاشهای ناموفق تیم ذخیرهسازی آروان، همچنین بینتیجه ماندن نظرات مشاوران داخلی و خارجی، تیم System Development آروان در تلاشاند با Patch کردن این مشکل نرمافزاری و همزمان افزایش منابع، مشکل را حل کنند.
با موفقیت آمیز بودن این فرآیند، آروان کد اصلاحی را بهشکل متنباز منتشر خواهد کرد.
همزمان که این فرآیندها برای ریکاوری در حال انجام است، یک تیم مستقل در حال برنامهریزی برای راهاندازی کلاستر جدید و انتقال دیتاهای ممکن از کلاستر آسیبدیده به کلاستر جدید است. با توجه به حجم کار زیرساختی، این فرآیند احتمالن تا پایان هفتهی اول فروردین ادامه پیدا خواهد کرد.
اقدامات پیشرو
پس از حل مشکل کلاستر ذخیرهسازی، به مشتریان درگیر اطلاعرسانی خواهد شد تا اقدامات مرتبط با پشتیبانگیری را انجام دهند.
ابر آروان مجموعه اقداماتی برای پیشگیری از بروز حوادث اینچنینی، همچنین موارد اصلاحی در دست کار دارد که پس از حل مشکل تمام مشتریان و رسیدن به وضعیت پایدار در گزارش تکمیلی آنها را به آگاهی شما خواهد رساند.