小さな不具合が引き起こした大規模インターネット障害、ＡＷＳの事案から学ぶ教訓

2025 Oct 27 , by: CNN

（ＣＮＮ）世界中で大手企業のアプリやサービスをダウンさせた米アマゾンのクラウド事業「アマゾン・ウェブ・サービス（ＡＷＳ）」の障害は、全てが小さな不具合から始まった――。アマゾンがそんな調査結果を発表した。

大規模障害が発生したのは今月２０日。アマゾンが２３日に発表した事後調査結果によると、原因は二つの自動化されたシステムが、同時に同じデータの更新を試みたことだった。これが発端となって重大な問題に発展し、アマゾンの技術者が急きょ対応に追われた。

ＡＷＳ障害の影響は広範に及び、食品の注文や病院ネットワークとの通信、モバイルバンキングの利用、防犯システムやスマートホーム端末への接続などができなくなった。動画配信大手のネットフリックスをはじめ、スターバックス、ユナイテッド航空といったグローバル企業のオンラインサービスも一時的に利用不能になった。

アマゾンはＡＷＳのウェブサイトに掲載した声明で、今回の障害について謝罪。「今回の出来事が多くの顧客に多大な影響を与えたことを認識している。この出来事から教訓を学ぶために全力を尽くし、さらなる改善に努める」とした。

発端は、二つのプログラムが同じＤＮＳ記録（インターネットの電話帳にあたる）を同時に書き込もうとして競合したことだった。結果としてＤＮＳ記録の空白が生じ、そこから複数のＡＷＳサービスが混乱状態に陥った。

米シスコのネットワーク監視サービス責任者を務めるアンジェリーク・メディナ氏はＣＮＮの取材に対し、「まさに電話帳の例え通り、電話の向こう側に相手がいるのに、どうすればつながるのか分からずに問題が起きた状態だ」と解説する。「その電話帳が、実質的に消えてしまった」

イリノイ大学のインドラニル・グプタ教授はＣＮＮのメール取材に対し、今回の障害を学生の課題にたとえて説明した。例えば作業の速い学生と遅い学生に共有ノートで共同作業するよう指示したとする。遅い方の学生は短時間集中で取り組もうとするものの、その成果は速い方の学生の作業と衝突したり矛盾したりする可能性がある。同時に、速い方の学生は常に素早く間違いを修正しようとして、遅い方の学生の作業を消去してしまう可能性がある。

その結果、教員が点検した時点でノートには空白のページ（または取り消し線が引かれたページ）ができた状態になる。

この「空白のページ」がＡＷＳのデータベース「ＤｙｎａｍｏＤＢ」をダウンさせ、アプリ開発と導入に使われる仮想サーバーの「ＥＣ２」や、ネットワークの負荷を分散させる「Ｎｅｔｗｏｒｋ　Ｌｏａｄ　Ｂａｌａｎｃｅｒ」などのサービスに連鎖反応が及んだ。ＤｙｎａｍｏＤＢが復旧した時点でＥＣ２では全てのサーバーを同時に復旧させようと試みたが、追いつくことができなかった。