(CNN) 世界中で大手企業のアプリやサービスをダウンさせた米アマゾンのクラウド事業「アマゾン・ウェブ・サービス(AWS)」の障害は、全てが小さな不具合から始まった――。アマゾンがそんな調査結果を発表した。
大規模障害が発生したのは今月20日。アマゾンが23日に発表した事後調査結果によると、原因は二つの自動化されたシステムが、同時に同じデータの更新を試みたことだった。これが発端となって重大な問題に発展し、アマゾンの技術者が急きょ対応に追われた。
AWS障害の影響は広範に及び、食品の注文や病院ネットワークとの通信、モバイルバンキングの利用、防犯システムやスマートホーム端末への接続などができなくなった。動画配信大手のネットフリックスをはじめ、スターバックス、ユナイテッド航空といったグローバル企業のオンラインサービスも一時的に利用不能になった。
アマゾンはAWSのウェブサイトに掲載した声明で、今回の障害について謝罪。「今回の出来事が多くの顧客に多大な影響を与えたことを認識している。この出来事から教訓を学ぶために全力を尽くし、さらなる改善に努める」とした。
発端は、二つのプログラムが同じDNS記録(インターネットの電話帳にあたる)を同時に書き込もうとして競合したことだった。結果としてDNS記録の空白が生じ、そこから複数のAWSサービスが混乱状態に陥った。
米シスコのネットワーク監視サービス責任者を務めるアンジェリーク・メディナ氏はCNNの取材に対し、「まさに電話帳の例え通り、電話の向こう側に相手がいるのに、どうすればつながるのか分からずに問題が起きた状態だ」と解説する。「その電話帳が、実質的に消えてしまった」
イリノイ大学のインドラニル・グプタ教授はCNNのメール取材に対し、今回の障害を学生の課題にたとえて説明した。例えば作業の速い学生と遅い学生に共有ノートで共同作業するよう指示したとする。遅い方の学生は短時間集中で取り組もうとするものの、その成果は速い方の学生の作業と衝突したり矛盾したりする可能性がある。同時に、速い方の学生は常に素早く間違いを修正しようとして、遅い方の学生の作業を消去してしまう可能性がある。
その結果、教員が点検した時点でノートには空白のページ(または取り消し線が引かれたページ)ができた状態になる。
この「空白のページ」がAWSのデータベース「DynamoDB」をダウンさせ、アプリ開発と導入に使われる仮想サーバーの「EC2」や、ネットワークの負荷を分散させる「Network Load Balancer」などのサービスに連鎖反応が及んだ。DynamoDBが復旧した時点でEC2では全てのサーバーを同時に復旧させようと試みたが、追いつくことができなかった。
アマゾンは今回の障害を受け、二つのシステムが互いの作業内容を上書きする「レースコンディション」問題の修正や、テスト工程の強化といった再発防止策を講じている。
今回のような大規模障害は極めてまれだが、これが現実だとグプタ教授は言い、「人が病気になるように、今回のような問題を回避することはできない」「しかし、企業がその障害にどう対応し、顧客に情報を提供し続けることが大きな鍵を握る」と話している。
Indonesian
English
Hindi
Thai
Vietnamese
Burmese
Spanish
Portuguese
Arabic
Russian
Chinese