AWS Outage adalah panggilan bangun. Percaya padaku.
Dulu, kami menjalankan situs web dari server pribadi dan perusahaan, biasanya terletak di dalam rumah dan kantor kami. Seiring pertumbuhan internet, kami membangun rak server, lokasi bersama, dan pusat data. Namun, pada akhirnya, bisnis dan layanan dari semua ukuran mengalihkan upaya server ke pihak ketiga—atau seperti yang mereka kenal sekarang, layanan cloud.
Logikanya kuat. Kami tinggal di rumah, tetapi tidak secara fisik membangun rumah kami sendiri. Tindakan melayani dan menskalakan situs web bukanlah inti dari layanan yang mereka sediakan. Yah, itu semacam tanpa server tidak ada layanan. Tetapi server berjalan melalui API, skrip, dan algoritme serta program lain yang dikembangkan oleh perusahaan untuk mengirimkan hal-hal seperti streaming Netflix Anda, detail akun dompet Coinbase Anda, atau prospek Tinder berikutnya.
Kemampuan layanan cloud seperti Amazon Web Services (AWS) dan Microsoft Azure untuk, jika Anda membayar cukup, meningkatkan (atau menurunkan, sesuai kebutuhan) dengan cepat menjadikannya keputusan strategis yang cerdas untuk bisnis apa pun dalam ukuran apa pun. Anda tidak pernah tahu, misalnya, kapan bisnis kecil akan berkembang menjadi bisnis besar dan kapan perlu melayani 10.000 pengguna secara bersamaan, bukan 500.
Itulah keuntungan yang jelas dari layanan web berbasis Cloud. Kelemahannya adalah apa yang terjadi minggu ini dengan AWS.
pemadaman AWS
Selasa sore, bongkahan besar AWS hancur. Dasbor Kesehatan AWS (terbuka di tab baru) memberikan play-by-play yang bagus dari pemadaman hampir tujuh jam. Intinya bukanlah, setidaknya menurut Amazon, serangan, peretasan, atau serangan Denial of Service (DDoS). Itu adalah sepasang API yang nakal di satu sektor layanan besar.
Kita semua hidup dalam ketakutan akan DDoS besar atau peretasan yang melanggar sistem ini (benar-benar sistem apa pun yang kita andalkan) dan membuat mereka bertekuk lutut, tetapi itu jarang terjadi. Ketika Cloudflare turun pada tahun 2019, awalnya dianggap sebagai serangan terhadap sistemnya. Namun, kami segera mengetahui bahwa itu hanyalah penerapan perangkat lunak yang buruk, pada dasarnya kesalahan manusia.
Bahkan dengan pemadaman AWS terbatas pada apa yang disebut Amazon sebagai “Wilayah AS-TIMUR-1,” dampaknya signifikan dan meluas. Itu dirasakan di seluruh platform yang menghadap konsumen seperti Disney+ dan, tentu saja, Amazon.com dan beberapa layanan Alexa.
Ketika saya memposting yang sedang berlangsung berita di TwitterSaya perhatikan berapa banyak orang yang menampar kepala mereka dan berseru, “Itu sebabnya [insert service] sedang keluar!”
Terpikir oleh saya bahwa banyak dari pengguna ini tidak tahu bahwa AWS berada di belakang sistem konsumen dan bisnis favorit mereka. Omong-omong, tidak ada seorang pun yang memiliki angka pastinya (di luar Amazon), tetapi laporan terbaru mengklaim AWS melayani jutaan. Microsoft Azure juga melaporkan jutaan pengguna dan sebagian besar perusahaan Fortune 500. Google Cloud memiliki nama-nama besar seperti Verizon, NewsCorp, dan Facebook.
Apakah ada yang perlu diubah?
Meluasnya penggunaan layanan cloud bukanlah hal yang buruk, meskipun kurangnya wawasan dapat menyebabkan kebingungan dan saling tuduh, seperti orang yang tidak dapat mengubah perintah dalam sistemnya dan mendapat banyak pesan kesalahan yang menyalahkan sistemnya sendiri (dan tidak penyedia pihak ketiga seperti AWS).
Kombinasi dari jangkauan luas sistem cloud dan kurangnya informasi secara umum dan umpan balik waktu nyata kepada pelanggan yang terpengaruh menyebabkan beberapa kekhawatiran. Skala satu pemadaman mungkin menjadi penyebab alarm, terutama karena kami mempertimbangkan yang berikutnya yang tak terhindarkan.
Lewatlah sudah hari-hari ketika rak server seseorang turun dan satu situs web tersendat. Sekarang kami mengalami kegagalan kecil dalam sistem cloud besar seperti AWS, Axure, dan Cloudflare yang memicu tsunami pemadaman listrik.
Satu orang di Twitter bertanya, “Apa yang terjadi dengan penskalaan dan penyeimbangan muatan?” Itu pertanyaan yang wajar. AWS dibangun di atas ratusan kluster server cloud terpisah dan memiliki banyak redudansi, penskalaan, dan penyeimbangan muatan. Dan tetap saja, terkadang, itu tidak cukup. Sistem kompleks dapat berperilaku buruk dan sangat rentan terhadap pembaruan perangkat lunak yang dapat berbenturan dengan kode lama. Untuk sekuat dan terdistribusi seperti semua layanan cloud ini, termasuk AWS, mereka masih diprogram, dijalankan, dan dilayani oleh manusia yang bisa salah.
Jadi, bagaimana cara kami memberi tahu publik dengan lebih baik dan, yang lebih penting, melindungi AWS, Azure, Cloudflare, dan lainnya dari jenis kesalahan ini, yang tidak hanya menyebabkan situs dan layanan yang terhenti, tetapi juga hilangnya jutaan dolar?
Mungkin sudah waktunya untuk mundur dan melihat integritas, keamanan sistem cloud, dengan cara yang sama seperti kita memperhatikan sistem air. Tampaknya tidak satu pun dari mereka yang terlalu besar untuk gagal, tetapi semuanya terlalu penting untuk dirusak, dilanggar, atau hilang.