২০২৫ সালের সবচেয়ে বড় প্রযুক্তি বিপর্যয়: কী ভুল হয়েছিল এবং কেন

সর্বাধিক আলোচিত

২০২৫ সালে বড় বড় অনলাইন সেবাগুলো নিরবে ব্যর্থ হয়নি। সবার সামনেই ভেঙে পড়েছে। মানুষ টাকা পাঠাতে পারেনি, মেসেজ করতে পারেনি, কল জয়েন করতে পারেনি, লগইন করতে পারেনি, এমনকি প্রতিদিন ব্যবহার করা অ্যাপেও ঢুকতে পারেনি। বেশিরভাগ পাঠক যা চান তা হলো স্পষ্টতা—কোন কারণে সেবা বন্ধ হয়েছিল—যাতে তারা বুঝতে পারেন আসলে কী ঘটেছিল এবং পরবর্তীতে কী করতে হবে।

এই নিবন্ধে ২০২৫ সালের দশটি বড় প্রযুক্তি বিপর্যয়ের র‍্যাঙ্কিং করা হয়েছে। প্রতিটির জন্য আপনি দেখবেন কী ভেঙে পড়েছিল, কতক্ষণ স্থায়ী হয়েছিল, কারা ক্ষতিগ্রস্ত হয়েছিল এবং এর পেছনের নিশ্চিত কারণ কী ছিল। আমি এটাও ব্যাখ্যা করছি যে ক্লাউড আউটেজ, DNS ব্যর্থতা, কনফিগারেশন ভুল এবং সাইবার হামলা জুড়ে কোন প্যাটার্নগুলো বারবার দেখা যাচ্ছে।

দ্রুত দেখে নিন: কোন সেবা কখন বন্ধ হয়েছিল

এই অংশটি দ্রুত দেখে নিন। তারপর যে আউটেজ সম্পর্কে জানতে চান, সেখানে যান।

শীর্ষ আউটেজ এক নজরে

র‍্যাঙ্ক তারিখ (২০২৫) সেবা/প্ল্যাটফর্ম কী ভেঙে পড়েছিল সময়কাল (আনুমানিক) মূল কারণ
১৯-২০ অক্টোবর AWS (US-EAST-1) DynamoDB DNS রেজোলিউশন ব্যর্থ হয়ে ছড়িয়ে পড়ে ~১৫+ ঘণ্টা DNS অটোমেশন/রেস কন্ডিশন
১৮ নভেম্বর Cloudflare জেনারেট করা বট ফাইল খুব বড় হয়ে সিস্টেম ক্র্যাশ করে ~৩-৬ ঘণ্টা কনফিগ পাইপলাইন/ডেটা পারমিশন
১২ জুন Google Cloud গ্লোবাল পলিসি পরিবর্তনের পর Service Control ক্র্যাশ ~৭+ ঘণ্টা কন্ট্রোল প্লেন বাগ/পলিসি ডেটা
২৯ অক্টোবর Azure Front Door খারাপ মেটাডেটা এবং async প্রসেসিং ক্র্যাশের দিকে নিয়ে যায় একাধিক ঘণ্টা কনফিগ/মেটাডেটা/লেটেন্ট বাগ
১-২ মার্চ Microsoft 365 (Outlook) অ্যাক্সেস এবং লগইন সমস্যা; রোলব্যাক প্রয়োগ করা হয় ~কয়েক ঘণ্টা সমস্যাযুক্ত কোড পরিবর্তন
২৬ ফেব্রুয়ারি Slack মেসেজিং এবং লগইন খারাপ হয় ~৯.৫ ঘণ্টা DB মেইনটেনেন্স + ক্যাশিং ত্রুটি
১৬ এপ্রিল Zoom রেজিস্ট্রি ব্লকের কারণে zoom.us রেজলভ করা বন্ধ হয় ~২ ঘণ্টা ডোমেইন/DNS কন্ট্রোল ব্যর্থতা
২৯ মে SentinelOne রুট রিমুভের পর প্ল্যাটফর্ম সংযোগ হারায় ~কয়েক ঘণ্টা অটোমেশন/রাউটিং ত্রুটি
৩ জুলাই থেকে Ingram Micro র‍্যানসমওয়্যার রেসপন্সের সময় ব্যবসায়িক সিস্টেম ব্যাহত একাধিক দিন র‍্যানসমওয়্যার/অপারেশন বন্ধ
১০ জানুয়ারি Conduent রাজ্য পেমেন্ট এবং সাপোর্ট সিস্টেম ব্যাহত কয়েক দিন (বিভিন্ন) সাইবার ঘটনা

“বড় আউটেজ” বলতে এখানে কী বোঝানো হয়েছে?

এই তালিকা উপযোগী করতে, প্রতিটি আউটেজ অন্তত এই নিয়মগুলোর একটি পূরণ করে:

  • এটি খুব বড় সংখ্যক ব্যবহারকারীকে ব্যাহত করেছে, যাচাইকৃত রিপোর্টিং বা বড় আকারের পাবলিক সংকেতের ভিত্তিতে।
  • এটি একটি বড় প্ল্যাটফর্ম লেয়ারকে আঘাত করেছে যেমন ক্লাউড, এজ/CDN, ডোমেইন/DNS, বা মূল কাজের টুল।
  • এটি পেমেন্ট, পাবলিক সুবিধা বা নিরাপত্তা অপারেশনের মতো গুরুত্বপূর্ণ সেবাগুলোকে প্রভাবিত করেছে।
  • একটি অফিশিয়াল পোস্টমর্টেম, স্ট্যাটাস পেজ, কোম্পানির বিবৃতি বা উচ্চমানের রিপোর্টিং থেকে একটি বিশ্বাসযোগ্য ব্যাখ্যা আছে।

এর মানে আমি গুজব অন্তর্ভুক্ত করিনি। যদি মূল কারণ নিশ্চিত না হয়, তবে এটি তালিকায় আসেনি।

এজন্যই নিবন্ধটি “এটা ডাউন ছিল এবং কেউ জানে না কেন” এর পরিবর্তে নিশ্চিত কারণসহ আউটেজগুলোকে হাইলাইট করে।

শীর্ষ ১০টি আউটেজ বিস্তারিত (র‍্যাঙ্ক অনুসারে)

Top 10 Outage

নিচে প্রতিটি আউটেজে রয়েছে: একটি সহজ টাইমলাইন, ব্যবহারকারীরা কী দেখেছিল (যেমন API টাইমআউট, লগইন ব্যর্থতা, “SOS only”), সম্ভাব্য মূল কারণের প্যাটার্ন এবং ব্যবহারিক সমাধান বিভাগ (চেঞ্জ ম্যানেজমেন্ট, সার্কিট ব্রেকার, মাল্টি-রিজিয়ন)। 

১. AWS আউটেজ (US-EAST-1) — ১৯-২০ অক্টোবর, ২০২৫

কী ঘটেছিল

AWS-এ US-EAST-1 রিজিয়নে (নর্দার্ন ভার্জিনিয়া) Amazon DynamoDB-এর সাথে জড়িত একটি বড় ব্যাঘাত হয়েছিল। অনেক কাস্টমার অ্যাপ এরর দেখেছে কারণ মূল AWS সেবাগুলো নির্ভরযোগ্যভাবে DynamoDB এন্ডপয়েন্টে পৌঁছাতে পারছিল না। AWS পরে বলেছে যে বড় ঘটনাটি DynamoDB এন্ডপয়েন্টের সাথে জড়িত DNS রেজোলিউশন সমস্যা থেকে এসেছে।

টাইমলাইন (উচ্চ স্তর)

AWS বলেছে যে ব্যাঘাত ১৯-২০ অক্টোবর শুরু হয়েছিল এবং ২০ অক্টোবর ভোর ১২:২৬ মিনিট PST-তে তারা ঘটনাটিকে DynamoDB এন্ডপয়েন্টের জন্য DNS রেজোলিউশন সমস্যা হিসাবে চিহ্নিত করেছে, ভোর ২:২৪ মিনিট PST-তে সেই DNS সমস্যার প্রশমন সম্পন্ন হয়েছে, এরপর অন্যান্য সাবসিস্টেম এবং ব্যাকলগের জন্য ধীর পুনরুদ্ধার হয়েছে।

Ars Technica রিপোর্ট করেছে যে ঘটনাটি ১৫ ঘণ্টা ৩২ মিনিট স্থায়ী হয়েছিল, AWS ইঞ্জিনিয়ারদের উদ্ধৃত করে।

কারা ক্ষতিগ্রস্ত হয়েছিল

যখন AWS US-EAST-1-এ গভীর সমস্যা হয়, তখন প্রভাব দ্রুত ছড়াতে পারে। অনেক কোম্পানি সেখানে গুরুত্বপূর্ণ ওয়ার্কলোড চালায়। এর মধ্যে থাকতে পারে কনজিউমার অ্যাপ, ব্যবসায়িক ড্যাশবোর্ড এবং পর্দার আড়ালের সেবাগুলো যা লগইন এবং পেমেন্টকে শক্তি দেয়। Reuters অনেক সেবা জুড়ে ব্যাপক ব্যাঘাত বর্ণনা করেছে যা AWS-এর উপর নির্ভর করে।

মূল কারণ (নিশ্চিত ট্রিগার)

AWS এবং একাধিক রিপোর্ট DynamoDB-এর স্বয়ংক্রিয় DNS ম্যানেজমেন্টে একটি ত্রুটি ব্যাখ্যা করেছে। AWS DynamoDB সার্ভিস এন্ডপয়েন্টের জন্য DNS রেজোলিউশন সমস্যা বর্ণনা করেছে। ইভেন্ট-পরবর্তী বিবরণের উপর রিপোর্টিং বলেছে যে একটি রেস কন্ডিশন একটি আঞ্চলিক এন্ডপয়েন্টের জন্য একটি খালি DNS রেকর্ড রেখেছিল।

কেন এটা ছড়িয়ে পড়েছিল

  • DNS হলো সার্ভিস ডিসকভারির জন্য একটি “সামনের দরজা”। যদি DNS কোথাও নির্দেশ না করে, সিস্টেম সংযোগ করতে পারে না।
  • DynamoDB অনেক অন্যান্য সেবার জন্য একটি মূল নির্ভরতা। তাই একটি DNS এরর চেইন রিঅ্যাকশন হতে পারে।
  • প্রাথমিক ফিক্সের পরে, অভ্যন্তরীণ ব্যাকলগ এবং দুর্বল সাবসিস্টেম সম্পূর্ণ পুনরুদ্ধার ধীর করতে পারে। AWS বলেছে যে কিছু অভ্যন্তরীণ সাবসিস্টেম দুর্বল ছিল এবং এটি পুনরুদ্ধার সহজতর করতে কিছু অপারেশন থ্রটল করেছে।

পরে কী পরিবর্তিত হয়েছিল

রিপোর্টিং বলেছে যে AWS সেফগার্ড যোগ করার সময় বিশ্বব্যাপী প্রভাবিত DynamoDB DNS অটোমেশন সাময়িকভাবে নিষ্ক্রিয় করেছে।

মূল শিক্ষা

স্বয়ংক্রিয় DNS ম্যানেজমেন্টের শক্তিশালী ব্রেক দরকার। এজ কেসগুলো পরীক্ষা করুন। রোলব্যাক সহজ করুন। একটি নিরাপদ ম্যানুয়াল পথ রাখুন।

২. Cloudflare গ্লোবাল আউটেজ — ১৮ নভেম্বর, ২০২৫

কী ঘটেছিল

Cloudflare একটি গ্লোবাল আউটেজের সম্মুখীন হয়েছিল। Cloudflare-এর পিছনে অনেক ওয়েবসাইট এরর পেজ দেখিয়েছিল। মিডিয়া আউটলেটগুলো রিপোর্ট করেছে যে বড় সেবাগুলো প্রভাবিত হয়েছিল কারণ Cloudflare ব্যবহারকারী এবং অনেক সাইটের মাঝে বসে থাকে।

টাইমলাইন (উচ্চ স্তর)

Cloudflare বলেছে যে নেটওয়ার্ক ১১:২০ UTC-তে মূল ট্রাফিক ডেলিভার করতে ব্যর্থ হতে শুরু করেছিল এবং এটি একটি ফিক্স ডিপ্লয় করার এবং একটি খারাপ আর্টিফ্যাক্ট রোলব্যাক করার পরে মূল পুনরুদ্ধার অগ্রসর হয়েছিল।

কারা ক্ষতিগ্রস্ত হয়েছিল

Cloudflare ওয়েবের একটি বিশাল অংশ সুরক্ষিত এবং ত্বরান্বিত করে। তাই এর ব্যর্থতা “অনেক সাইট ডাউন” এর মতো দেখতে পারে, যদিও অরিজিন সার্ভারগুলো ঠিক থাকতে পারে। The Verge ঘটনার সময় প্রভাবিত সেবাগুলোর একটি বিস্তৃত তালিকা দিয়েছে।

মূল কারণ (নিশ্চিত ট্রিগার)

Cloudflare-এর পোস্টমর্টেম বলেছে যে আউটেজ একটি আক্রমণের কারণে হয়নি। এটি একটি ডাটাবেস পারমিশন পরিবর্তনের দ্বারা ট্রিগার হয়েছিল। সেই পরিবর্তন একটি কোয়েরি আউটপুটকে একটি Bot Management “ফিচার ফাইলে” একাধিক এন্ট্রি তৈরি করতে দিয়েছিল। ফাইলটি আকারে দ্বিগুণ হয়েছে, একটি হার্ড লিমিট অতিক্রম করেছে এবং ট্রাফিক প্রসেস করে এমন সিস্টেমে ব্যর্থতা সৃষ্টি করেছে।

কেন এটা ছড়িয়ে পড়েছিল

  • ফিচার ফাইলটি স্বাভাবিক অপারেশনের অংশ হিসাবে তৈরি এবং বিতরণ করা হয়েছিল।
  • ফেইলিউর মোড কঠোর ছিল: একবার ফাইল লিমিট অতিক্রম করলে, সফটওয়্যার ধীরে ধীরে খারাপ হওয়ার পরিবর্তে ক্র্যাশ করতে পারে।
  • একটি একক খারাপ আর্টিফ্যাক্ট একটি গ্লোবাল নেটওয়ার্ক জুড়ে দ্রুত ছড়িয়ে পড়ে।

পরে কী পরিবর্তিত হয়েছিল

Cloudflare জেনারেশন লজিক, ভ্যালিডেশন এবং এই ফাইলের মতো গুরুত্বপূর্ণ আর্টিফ্যাক্টের জন্য রোলআউট নিরাপত্তায় ঝুঁকি কমাতে পরিবর্তন বর্ণনা করেছে।

মূল শিক্ষা

কনফিগ পাইপলাইনগুলোকে প্রোডাকশন সিস্টেম হিসাবে বিবেচনা করুন। শক্তিশালী ভ্যালিডেশন যোগ করুন। ব্লাস্ট রেডিয়াস সীমাবদ্ধ করুন। নিরাপদ ফেইলিউর মোড তৈরি করুন।

৩. Google Cloud আউটেজ — ১২ জুন, ২০২৫

কী ঘটেছিল

Google Cloud-এ একটি বড় ব্যাঘাত হয়েছিল। অনেক Google Cloud পণ্য এবং বাহ্যিক সেবা উচ্চ মাত্রার এরর দেখেছে। Reuters রিপোর্ট করেছে যে Spotify এবং Discord-এর মতো সেবাগুলো একই সময়ে আউটেজ রিপোর্টে বড় স্পাইক দেখেছে।

টাইমলাইন (উচ্চ স্তর)

Google-এর অফিশিয়াল ইনসিডেন্ট পেজ ২০২৫-০৬-১২ ১০:৫১ থেকে ১৮:১৮ (US/Pacific) পর্যন্ত ঘটনাটি তালিকাভুক্ত করে।

Reuters সেই উইন্ডোর সময় বড় ইউজার-রিপোর্ট স্পাইক বর্ণনা করেছে।

কারা ক্ষতিগ্রস্ত হয়েছিল

এটি শুধু “একটি Google সমস্যা” ছিল না। এটি Google Cloud ব্যবহার করে এমন অ্যাপ এবং সেবাগুলোতে ছড়িয়ে পড়েছিল। Reuters বড় সংখ্যক ইউজার রিপোর্ট উদ্ধৃত করেছে, যেমন Spotify-এর জন্য হাজার হাজার এবং Google Cloud এবং Discord-এর জন্য হাজারে।

মূল কারণ (নিশ্চিত ট্রিগার)

Google-এর ইনসিডেন্ট রিপোর্ট, The Register দ্বারা সংক্ষিপ্ত করা হয়েছে, বলেছে যে অতিরিক্ত কোটা চেক সমর্থন করতে Service Control-এ একটি নতুন ফিচার যোগ করা হয়েছিল। রোলআউটের সময় ব্যর্থ কোড পাথটি চর্চা করা হয়নি কারণ এটি ট্রিগার করতে একটি নির্দিষ্ট পলিসি পরিবর্তন প্রয়োজন ছিল। তারপর, ১২ জুন, অনিচ্ছাকৃত ফাঁকা ক্ষেত্র সহ একটি পলিসি পরিবর্তন বিশ্বব্যাপী প্রতিলিপি হয়েছিল এবং Service Control-এ একটি ক্র্যাশ লুপ ট্রিগার করেছিল।

কেন এটা ছড়িয়ে পড়েছিল

  • Service Control অনেক API-এর জন্য রিকোয়েস্ট পাথে বসে থাকে। যদি এটি ক্র্যাশ করে, অনেক পণ্য একসাথে ব্যর্থ হয়।
  • পলিসি ডেটা দ্রুত অঞ্চল জুড়ে প্রতিলিপি হয়েছিল, তাই ট্রিগারটি দ্রুত গ্লোবাল হয়ে গেছে।

পরে কী পরিবর্তিত হয়েছিল

Google একটি “রেড বাটন” পদ্ধতি ব্যবহার করে প্রশমন এবং অনুরূপ ক্র্যাশ লুপগুলো প্ল্যাটফর্মের বড় অংশ নিচে নিয়ে যাওয়া থেকে প্রতিরোধ করার জন্য পরিবর্তন বর্ণনা করেছে।

মূল শিক্ষা

কন্ট্রোল প্লেনগুলোকে নিরাপদে ব্যর্থ হতে হবে। একটি খারাপ পলিসি ক্ষেত্র পুরো ক্লাউডের জন্য গেটকিপার ক্র্যাশ করা উচিত নয়।

৪. Microsoft Azure Front Door আউটেজ — ২৯ অক্টোবর, ২০২৫

কী ঘটেছিল

Azure Front Door (AFD), একটি গ্লোবাল এজ ডেলিভারি সার্ভিস, একটি বড় ঘটনা ছিল যা সার্ভিস অবনতি এবং কাস্টমার প্রভাব সৃষ্টি করেছিল। তৃতীয় পক্ষের মনিটরিং টিমও গ্লোবাল সমস্যা পর্যবেক্ষণ করেছে।

টাইমলাইন (উচ্চ স্তর)

Microsoft দুটি অক্টোবর ঘটনা (৯ অক্টোবর এবং ২৯ অক্টোবর) এবং শেখা পাঠ বর্ণনা করেছে। ২৯ অক্টোবর ঘটনাটি কাস্টমার-প্রভাবিত ছিল এবং ব্যাপক AFD অবনতি জড়িত ছিল।

কারা ক্ষতিগ্রস্ত হয়েছিল

যখন একটি এজ ফ্রন্ট ডোর ভাঙে, অনেক অ্যাপ অনুরূপভাবে ব্যর্থ হয়। ব্যবহারকারীরা টাইমআউট, ভাঙা সাইন-ইন ফ্লো এবং ব্যর্থ সংযোগ দেখেন। AFD Microsoft সেবা এবং অনেক কাস্টমার অ্যাপ উভয়ই সার্ভ করে।

মূল কারণ (নিশ্চিত ট্রিগার)

Microsoft-এর Azure Networking Blog বলেছে যে বেমানান কাস্টমার কনফিগারেশন মেটাডেটা সুরক্ষা সিস্টেম দিয়ে এগিয়েছে। তারপর একটি বিলম্বিত async প্রসেসিং টাস্ক অন্য একটি লেটেন্ট ত্রুটির কারণে একটি ক্র্যাশ ঘটায়, যা AFD-তে অনবোর্ড করা অ্যাপ্লিকেশনগুলোর জন্য সংযোগ এবং DNS রেজোলিউশনকে প্রভাবিত করেছে।

কেন এটা ছড়িয়ে পড়েছিল

  • এজ সার্ভিসগুলো ট্রাফিক কেন্দ্রীভূত করে, তাই একটি ডেটা-প্লেন ক্র্যাশ দ্রুত অনেক ব্যবহারকারীকে আঘাত করে।
  • ভ্যালিডেশন অসম্পূর্ণ হলে খারাপ মেটাডেটা পিছলে যেতে পারে।
  • “শেষ পরিচিত ভাল” স্ন্যাপশটগুলো ঝুঁকিপূর্ণ হতে পারে যদি তারা দুর্ঘটনাক্রমে একটি খারাপ অবস্থা ক্যাপচার করে।

পরে কী পরিবর্তিত হয়েছিল

Microsoft সুরক্ষা শক্তিশালী করার এবং আগে মেটাডেটা ভ্যালিডেট করার কাজ বর্ণনা করেছে, পরিবর্তনগুলোর লক্ষ্য খারাপ অবস্থা বিশ্বব্যাপী ছড়ানোর সম্ভাবনা কমানো।

মূল শিক্ষা

কনফিগ এবং মেটাডেটা আগে ভ্যালিডেট করুন। কঠোর ক্যানারি ব্যবহার করুন। একটি সত্যিকারের নিরাপদ রোলব্যাক পয়েন্ট রাখুন।

৫. Microsoft 365 আউটেজ (Outlook) — ১-২ মার্চ, ২০২৫

কী ঘটেছিল

Microsoft 365 ব্যবহারকারীরা লগ ইন করতে এবং Outlook সেবা ব্যবহার করতে সমস্যা রিপোর্ট করেছেন। Microsoft বলেছে যে এটি একটি সম্ভাব্য কারণ চিহ্নিত করেছে এবং প্রভাব কমাতে কোড প্রত্যাবর্তন করেছে।

টাইমলাইন (উচ্চ স্তর)

The Register রিপোর্ট করেছে যে সমস্যাগুলো একটি শনিবার প্রায় ২১০০ UTC-তে শুরু হয়েছিল এবং Microsoft একটি কোড পরিবর্তনকে দায়ী করেছে এবং এটি প্রত্যাবর্তন করেছে।

কারা ক্ষতিগ্রস্ত হয়েছিল

Outlook ডাউনটাইম ব্যক্তিগত ব্যবহারকারী এবং ব্যবসা উভয়কেই আঘাত করে। এমনকি কয়েক ঘন্টা কাস্টমার সাপোর্ট, অভ্যন্তরীণ যোগাযোগ এবং লগইন ফ্লো ভাঙতে পারে।

মূল কারণ (নিশ্চিত ট্রিগার)

Microsoft এটিকে একটি “সমস্যাযুক্ত কোড পরিবর্তনের” জন্য দায়ী করেছে। রিপোর্ট বলেছে যে Microsoft প্রভাব কমাতে সন্দেহজনক কোড প্রত্যাবর্তন করেছে।

মূল শিক্ষা

রিলিজ নিরাপত্তাই নির্ভরযোগ্যতা। ক্যানারি রোলআউট প্লাস দ্রুত রোলব্যাক প্রায়ই ফ্যান্সি আর্কিটেকচারের চেয়ে বেশি গুরুত্বপূর্ণ।

৬. Slack আউটেজ — ২৬ ফেব্রুয়ারি, ২০২৫

কী ঘটেছিল

Slack ব্যবহারকারীরা নির্ভরযোগ্যভাবে মেসেজ পাঠাতে বা গ্রহণ করতে, চ্যানেল লোড করতে, ওয়ার্কফ্লো ব্যবহার করতে, এমনকি দিনের কিছু অংশে লগ ইন করতে পারেননি।

টাইমলাইন (উচ্চ স্তর)

Slack-এর স্ট্যাটাস পেজ ঘটনাটি সকাল ৬:৪৫ PST থেকে বিকাল ৪:১৩ PST পর্যন্ত তালিকাভুক্ত করে।

কারা ক্ষতিগ্রস্ত হয়েছিল

Slack অনেক টিমের জন্য একটি কাজের মেরুদণ্ড। যখন Slack খারাপ হয়, ইনসিডেন্ট রেসপন্স ধীর হতে পারে, সাপোর্ট টিম সমন্বয় হারায় এবং কাজ থেমে যায়।

মূল কারণ (নিশ্চিত ট্রিগার)

Slack বলেছে যে ঘটনাটি একটি ডাটাবেস সিস্টেমে একটি রক্ষণাবেক্ষণ কর্মের কারণে হয়েছিল, ক্যাশিং সিস্টেমে একটি লেটেন্সি ত্রুটির সাথে মিলিত। সেই মিশ্রণ ডাটাবেসকে ওভারলোড করেছে এবং এর উপর নির্ভর করা প্রায় ৫০% ইনস্ট্যান্স অনুপলব্ধ হয়ে গেছে।

মূল শিক্ষা

“বিরক্তিকর জিনিস” পরীক্ষা করুন। রুটিন রক্ষণাবেক্ষণ লুকানো ত্রুটি প্রকাশ করতে এবং বড় আউটেজ সৃষ্টি করতে পারে।

৭. Zoom আউটেজ — ১৬ এপ্রিল, ২০২৫

কী ঘটেছিল

Zoom মিটিং এবং সম্পর্কিত সেবাগুলো অনেক ব্যবহারকারীর জন্য ব্যর্থ হয়েছিল কারণ zoom.us ডোমেইন নির্ভরযোগ্যভাবে রেজলভ হয়নি।

টাইমলাইন (উচ্চ স্তর)

GoDaddy Registry জানিয়েছে যে ১৬ এপ্রিল, বিকাল ২:২৫ ET এবং ৪:১২ ET-এর মধ্যে, zoom.us একটি সার্ভার ব্লকের কারণে অনুপলব্ধ ছিল।

কারা ক্ষতিগ্রস্ত হয়েছিল

Zoom কাজ, স্কুল এবং সাপোর্টের জন্য ব্যবহৃত হয়। একটি ডোমেইন ব্যর্থতা একবারে এটি সব ব্লক করে।

মূল কারণ (নিশ্চিত ট্রিগার)

GoDaddy Registry বলেছে যে ডোমেইনটি একটি সার্ভার ব্লকের কারণে ব্লক হয়েছিল। এটি জানিয়েছে যে Zoom, Markmonitor (Zoom-এর রেজিস্ট্রার), এবং GoDaddy দ্রুত এটি অপসারণ করতে কাজ করেছে এবং ঘটনার সময় কোনও পণ্য, নিরাপত্তা বা নেটওয়ার্ক ব্যর্থতা ছিল না।

অতিরিক্ত রিপোর্টিং রেজিস্ট্রার এবং রেজিস্ট্রির মধ্যে একটি যোগাযোগ ভুল বর্ণনা করেছে।

মূল শিক্ষা

আপনার ডোমেইন গুরুত্বপূর্ণ অবকাঠামো। রেজিস্ট্রি লক, টাইট কন্ট্রোল এবং DNS এবং ডোমেইন স্ট্যাটাসের জন্য মনিটরিং ব্যবহার করুন।

৮. SentinelOne গ্লোবাল সার্ভিস ব্যাঘাত — ২৯ মে, ২০২৫

কী ঘটেছিল

SentinelOne কাস্টমাররা মূল প্ল্যাটফর্ম সেবা এবং ম্যানেজমেন্ট কনসোলে অ্যাক্সেস হারিয়েছে। SentinelOne বলেছে যে এটি একটি নিরাপত্তা ঘটনা ছিল না, তবে এটি এখনও নিরাপত্তা টিমের জন্য দৃশ্যমানতা ব্যাহত করেছে।

টাইমলাইন (উচ্চ স্তর)

কভারেজ ঘন্টা-দীর্ঘ গ্লোবাল ব্যাঘাত বর্ণনা করেছে, সেবা ফিরে আসার পরে পুনরুদ্ধার এবং ব্যাকলগ প্রসেসিং সহ। SentinelOne একটি অফিশিয়াল RCA প্রকাশ করেছে।

কারা ক্ষতিগ্রস্ত হয়েছিল

এমনকি যদি এন্ডপয়েন্ট এখনও ডিভাইসগুলো সুরক্ষিত করে, কনসোল অ্যাক্সেস হারানো ক্ষতি করে। নিরাপত্তা টিমের প্রকৃত ঘটনার সময় লগ, সতর্কতা এবং নিয়ন্ত্রণ প্রয়োজন।

মূল কারণ (নিশ্চিত ট্রিগার)

SentinelOne-এর RCA বলেছে যে একটি অবকাঠামো নিয়ন্ত্রণ সিস্টেমে একটি সফটওয়্যার ত্রুটি গুরুত্বপূর্ণ নেটওয়ার্ক রুট অপসারণ করেছে, যা প্ল্যাটফর্মের মধ্যে সংযোগের ব্যাপক ক্ষতি সৃষ্টি করেছে। SentinelOne বলেছে যে এটি নিরাপত্তা-সম্পর্কিত ছিল না।

মূল শিক্ষা

অটোমেশন যা রুট পরিবর্তন করে তা সীমিত এবং বিপরীতযোগ্য হতে হবে। উচ্চ-ঝুঁকিপূর্ণ কর্মের অনুমোদন গেট এবং নিরাপদ ডিফল্ট প্রয়োজন।

৯. Ingram Micro আউটেজ — জুলাই ২০২৫ [র‍্যানসমওয়্যার]

কী ঘটেছিল

Ingram Micro, একটি বড় IT ডিস্ট্রিবিউটর, র‍্যানসমওয়্যারের সাথে জড়িত একটি বহু-দিনের ব্যাঘাতের শিকার হয়েছিল। এটি অনেক কাস্টমারের জন্য অর্ডারিং এবং অন্যান্য অপারেশন ব্যাহত করেছে।

টাইমলাইন (উচ্চ স্তর)

Ingram Micro ৫ জুলাই, ২০২৫-এ একটি বিবৃতি জারি করেছে যে এটি কিছু অভ্যন্তরীণ সিস্টেমে র‍্যানসমওয়্যার চিহ্নিত করেছে এবং পরিবেশ সুরক্ষিত করতে কিছু সিস্টেম অফলাইনে নিয়েছে।

Reuters অনুরূপ বিবরণ রিপোর্ট করেছে এবং উল্লেখ করেছে যে কোম্পানি আইন প্রয়োগকারীকে জানিয়েছে এবং সাইবার নিরাপত্তা বিশেষজ্ঞদের সাথে তদন্ত শুরু করেছে।

কারা ক্ষতিগ্রস্ত হয়েছিল

ডিস্ট্রিবিউটররা সাপ্লাই চেইনে বসে থাকে। তাই ডাউনটাইম অনেক রিসেলার এবং ব্যবসার জন্য অর্ডারিং, লাইসেন্সিং এবং শিপিং ধীর করতে পারে।

মূল কারণ (নিশ্চিত ট্রিগার)

কোম্পানি নিশ্চিত করেছে যে অভ্যন্তরীণ সিস্টেমে র‍্যানসমওয়্যার চিহ্নিত করা হয়েছিল এবং এটি প্রতিক্রিয়ার অংশ হিসাবে সিস্টেম অফলাইনে নিয়েছিল।

মূল শিক্ষা

র‍্যানসমওয়্যার রেসপন্সে প্রায়ই শাটডাউন প্রয়োজন। ব্যবসাগুলোর ব্যাকআপ অর্ডারিং পথ, পরিষ্কার ব্যাকআপ এবং পরীক্ষিত পুনরুদ্ধার পরিকল্পনা প্রয়োজন।

১০. Conduent ব্যাঘাত — জানুয়ারি ২০২৫ [সাইবার ঘটনা]

কী ঘটেছিল

Conduent, একটি সরকার এবং ব্যবসায়িক সেবা ঠিকাদার, একটি সাইবার নিরাপত্তা ঘটনার সাথে জড়িত একটি আউটেজ নিশ্চিত করেছে। ব্যাঘাত রাজ্য সিস্টেমগুলোকে প্রভাবিত করেছে, কিছু ক্ষেত্রে পেমেন্ট প্রসেসিং সহ।

কারা ক্ষতিগ্রস্ত হয়েছিল

এগুলো “nice-to-have” সেবা ছিল না। কিছু রাজ্যে পেমেন্ট প্রসেসিং এবং সামাজিক সহায়তা সিস্টেম অন্তর্ভুক্ত ছিল। Cybersecurity Dive রিপোর্ট করেছে যে Wisconsin ঘটনার সাথে সংযুক্ত বিলম্বের দ্বারা প্রভাবিত বেশ কয়েকটি রাজ্যের মধ্যে একটি ছিল।

মূল কারণ (নিশ্চিত ট্রিগার)

Conduent নিশ্চিত করেছে যে আউটেজ একটি সাইবার ঘটনার কারণে হয়েছিল। পাবলিক রিপোর্টিং সর্বদা প্রাথমিক প্রবেশ পয়েন্ট সম্পর্কে গভীর প্রযুক্তিগত বিবরণ অন্তর্ভুক্ত করেনি, তবে কোম্পানি ঘটনাটি নিজেই নিশ্চিত করেছে।

প্রভাবের উদাহরণ (সংখ্যা সহ)

GovTech একটি ঘটনা রিপোর্ট করেছে যেখানে একটি সাইবার ঘটনা সাময়িকভাবে চাইল্ড সাপোর্ট পেমেন্ট বন্ধ করেছে, সমাধানের আগে আনুমানিক ১২১,০০০ পরিবারকে প্রায় ২৭ মিলিয়ন ডলার সম্মিলিত পেমেন্ট পেতে বাধা দিয়েছে।

মূল শিক্ষা

গুরুত্বপূর্ণ পাবলিক সেবাগুলোর একটি ফলব্যাক পরিকল্পনা প্রয়োজন। ভেন্ডর ঝুঁকিকে অবকাঠামো ঝুঁকির মতো বিবেচনা করতে হবে।

মূল কারণগুলো ব্যাখ্যা করা হলো [কেন আউটেজ হতেই থাকে]

যখন আপনি পিছিয়ে যান, এই আউটেজগুলো আলাদা দেখায়। কিন্তু কারণগুলো প্রায়ই পুনরাবৃত্তি হয়।

১. অনিরাপদ পরিবর্তন এবং দুর্বল ভ্যালিডেশন

  • একটি পারমিশন আপডেট Cloudflare-এর ফাইল জেনারেশন ভেঙে দেয়।
  • একটি মেটাডেটা সুরক্ষা ফাঁক Azure Front Door-এ খারাপ কনফিগ অবস্থার অনুমতি দেয়।
  • একটি কোড পরিবর্তন Microsoft 365 ব্যাহত করে।

এই কারণেই টিমগুলোর মূল কারণসহ আউটেজ অধ্যয়ন করা উচিত। তারা দেখায় যে চেঞ্জ কন্ট্রোল কাগজপত্র নয়। এটি একটি নিরাপত্তা ব্যবস্থা।

২. DNS এবং ডোমেইন কন্ট্রোল ব্যর্থতা

DNS তত্ত্বে সহজ। বাস্তব জীবনে, DNS ভঙ্গুর কারণ এটি সবকিছু সংযুক্ত করে।

  • AWS DynamoDB এন্ডপয়েন্টের সাথে জড়িত DNS রেজোলিউশন সমস্যা বর্ণনা করেছে।
  • Zoom-এর ডোমেইন রেজিস্ট্রি স্তরে ব্লক হয়েছিল, যা zoom.us-এর জন্য রেজোলিউশন ভেঙে দেয়।

যদি আপনার নাম রেজলভ না হয়, আপনার সেবা অদৃশ্য হতে পারে।

৩. কন্ট্রোল প্লেন চোকপয়েন্ট

Google Cloud দেখিয়েছে যে কীভাবে একটি কন্ট্রোল প্লেন ক্র্যাশ অনেক API নিচে নিতে পারে। এটি শুরু হয়েছিল যখন একটি বিশ্বব্যাপী প্রতিলিপি পলিসি পরিবর্তন একটি অপরীক্ষিত কোড পাথ এবং ক্র্যাশ লুপ ট্রিগার করেছিল।

একটি সুস্থ প্ল্যাটফর্মের একটি কন্ট্রোল প্লেন প্রয়োজন যা নিরাপদে অবনতি হয়।

৪. সাইবার ঘটনা এবং বাধ্যতামূলক শাটডাউন

  • Ingram Micro নিশ্চিত করেছে যে র‍্যানসমওয়্যার চিহ্নিত হওয়ার পরে এটি সিস্টেম অফলাইনে নিয়েছিল।
  • Conduent তার আউটেজের পেছনে একটি সাইবার নিরাপত্তা ঘটনা নিশ্চিত করেছে।

কখনও কখনও আউটেজ আক্রমণ নয়। এটি সংযম।

২০২৫ সালে আমরা যে প্যাটার্নগুলো দেখেছি

ক্যাসকেডিং ফেইলিউর সাধারণ

আধুনিক সেবাগুলো শেয়ার করা স্তরগুলোর উপর নির্ভর করে। একটি DNS সমস্যা একটি ডাটাবেস সমস্যা হতে পারে, যা একটি অথ সমস্যা হয়ে যায়, যা একটি ইউজার লগইন সমস্যা হয়ে যায়। AWS এবং Google Cloud ক্যাসকেড আচরণের শক্তিশালী উদাহরণ।

দ্রুত রোলব্যাক ডাউনটাইম কমায়

যখন টিমগুলো দ্রুত রোলব্যাক করতে পারে, ব্যবহারকারীর ক্ষতি সঙ্কুচিত হয়।

  • Cloudflare খারাপ ফাইল প্রতিস্থাপন করেছে এবং ট্রাফিক পুনরুদ্ধার করেছে।
  • Microsoft একটি সমস্যাযুক্ত কোড পরিবর্তন প্রত্যাবর্তন করেছে।
  • Google ব্যর্থ পথ বন্ধ করতে এবং পুনরুদ্ধার শুরু করতে একটি উচ্চ-প্রভাব প্রশমন পদক্ষেপ ব্যবহার করেছে।

“ছোট” ঘটনা স্কেলে বিশাল হতে পারে

একটি পারমিশন পরিবর্তন। একটি পলিসি এডিট। একটি ডাটাবেস রক্ষণাবেক্ষণ কর্ম। এগুলো প্রতিদিনের কাজ। স্কেলে, তারা বিশ্বকে নিচে নিতে পারে যদি নিরাপত্তা চেক দুর্বল হয়।

কীভাবে ডাউনটাইম কমাবেন [ব্যবহারিক চেকলিস্ট]

আপনি প্রতিটি ব্যর্থতা প্রতিরোধ করতে পারবেন না। কিন্তু আপনি হ্রাস করতে পারেন কত ঘন ঘন এটি ঘটে এবং কত দিন স্থায়ী হয়। এই চেকলিস্ট প্রকৃত টিমের জন্য তৈরি, নিখুঁত টিমের জন্য নয়।

আর্কিটেকচার

  • যখন সম্ভব মূল বৈশিষ্ট্যগুলোর জন্য একক-অঞ্চল গুরুত্বপূর্ণ পথ এড়িয়ে চলুন।
  • বিচ্ছিন্নতা ব্যবহার করুন। সেল, জোন এবং কঠোর সীমা ব্লাস্ট রেডিয়াস হ্রাস করে।
  • গুরুত্বপূর্ণ সেবাগুলোর জন্য মাল্টি-প্রোভাইডার DNS ব্যবহার করুন এবং ফেইলওভার পরীক্ষা করুন।

পরিবর্তন এবং রিলিজ নিরাপত্তা

  • পর্যায়ক্রমে পরিবর্তন রোল আউট করুন। ক্যানারি রিলিজ ব্যবহার করুন।
  • কনফিগকে কোডের মতো বিবেচনা করুন। ইনপুট এবং আউটপুট ভ্যালিডেট করুন।
  • রোলব্যাক দ্রুত রাখুন। প্রায়ই অনুশীলন করুন।

মনিটরিং এবং ইনসিডেন্ট রেসপন্স

  • ইউজার পাথ মনিটর করুন। লগইন, চেকআউট, মেসেজ পাঠান, মিটিং জয়েন করুন।
  • DNS, এজ গেটওয়ে এবং ডাটাবেসের মতো নির্ভরতা মনিটর করুন।
  • স্পষ্ট ইনসিডেন্ট ভূমিকা রাখুন। আপডেট সংক্ষিপ্ত এবং ঘন ঘন রাখুন।

রেজিলিয়েন্স টেস্টিং

  • “গেম ডে” চালান। নিরাপদ উপায়ে ইচ্ছাকৃতভাবে জিনিস ভাঙুন।
  • লোডের অধীনে রক্ষণাবেক্ষণ এবং পারমিশন পরিবর্তনের মতো বিরক্তিকর ঘটনা পরীক্ষা করুন।
  • পরীক্ষা করুন যদি একটি মূল নির্ভরতা চলে যায় তবে কী ঘটে।

আপনি যদি কম পুনরাবৃত্তি ঘটনা চান, তবে মূল কারণসহ আউটেজগুলোকে আপনার নিজের সিস্টেমে অ্যাকশন আইটেমে পরিণত করতে এই চেকলিস্ট ব্যবহার করুন।

শেষ কথা

২০২৫ সালের সবচেয়ে বড় আউটেজগুলো এলোমেলো ছিল না। অনেকগুলো স্বাভাবিক কর্ম দিয়ে শুরু হয়েছিল: একটি কনফিগ পরিবর্তন, একটি পলিসি আপডেট, একটি রক্ষণাবেক্ষণ কাজ, বা একটি স্বয়ংক্রিয় সিস্টেম ভুল উপায়ে তার কাজ করছে। তারপর তারা শেয়ার করা স্তর জুড়ে ছড়িয়ে পড়েছে।

আপনি যে সবচেয়ে উপযোগী অভ্যাস তৈরি করতে পারেন তা হলো মূল কারণসহ আউটেজ থেকে পড়া এবং শেখা। তারা দেখায় সিস্টেমগুলো কোথায় ভঙ্গুর। তারা দেখায় রোলব্যাক কোথায় ধীর। তারা দেখায় কোথায় “ছোট” পরিবর্তন বড় ক্ষতি করতে পারে। আপনি যদি সেই পাঠগুলো গুরুত্ব সহকারে নেন, আপনি ডাউনটাইম হ্রাস করতে, ব্লাস্ট রেডিয়াস সীমাবদ্ধ করতে এবং পরবর্তী সময়ে কিছু ভাঙলে দ্রুত পুনরুদ্ধার করতে পারবেন।

সর্বশেষ