2019年8月23日に大規模障害を起こした米アマゾン ウェブ サービスのクラウドサービス「Amazon Web Services(AWS)」。その影響で顧客向けサービスのシステム停止を招いたユーザー企業のあるベテラン技術者は「想定できた障害だったのに対策が甘かった、油断した」と反省の言葉を口にした。

 今回の大規模障害では、AWS東京リージョンに4つあるアベイラビリティーゾーン(独立性の高いデータセンター群、AZ)のうち1つで空調設備が故障し、仮想マシンの「Amazon EC2」やそのストレージの「Amazon EBS」など様々なサービスに影響が及んだ。アプリケーションロードバランサーの「ALB」もその1つだ。ALBによって複数AZによる冗長構成にしていたシステムでも、受け取ったリクエストの一定割合を正常処理できない不具合が発生したケースがある。

 ただし前出のベテラン技術者によれば、これらの障害はAWSの東京リージョンや海外リージョンでのこれまでの利用経験に照らせば「起こり得ること」であって、迅速に対処できなかったのは自社の油断があったためと悔しさをにじませる。

 「油断した」と話す技術者は1人ではない。AWSでのシステム構築経験が豊富なパートナーの技術者からも同じような声が聞かれた。

 ではなぜ、ベテラン技術者でさえ油断してしまい適切な事前対策を講じられなかったのか。今回の大規模障害の教訓を生かすために原因を考察したところ、2つの過信が浮かび上がった。

「東京リージョンの安定稼働に慣れて油断した」

 1つは、AWS東京リージョンの設備や基盤の信頼性に対する過信だ。

 AWSの海外リージョン全体を見ると大規模障害はしばしば起きているが、東京リージョンはこれまで比較的安定して稼働してきた。2013年末ごろコンテンツ配信ネットワーク(CDN)サービス「Amazon CloudFront」の障害が2度にわたり発生したことはあったが、ユーザーの多数のシステムが停止するような大規模障害はそれ以降起きていなかった。「東京リージョンは海外リージョンより信頼できる」と口にする技術者も少なからずいたほどだ。

 しかし、そもそもAWSではリージョンによらずAZ単位での障害は起こり得るものと位置付けられている。AWSは日本のユーザーにも複数AZによる冗長構成を推奨してきた。返金補償を含むSLA(サービスレベルアグリーメント)を、単一AZのシステムには設定せず、複数AZによる冗長構成にしたシステムのみに設けていることからも、複数AZによる冗長構成を推奨する姿勢が分かる。

 1つのAZの障害が起こり得ることは、多くの技術者が分かっていたはずだ。しかし「長年の安定稼働に慣れて油断してしまった」(冒頭のベテラン技術者)。

この先は会員の登録が必要です。今なら有料会員(月額プラン)が12月末まで無料!

日経 xTECHには有料記事(有料会員向けまたは定期購読者向け)、無料記事(登録会員向け)、フリー記事(誰でも閲覧可能)があります。有料記事でも、登録会員向け配信期間は登録会員への登録が必要な場合があります。有料会員と登録会員に関するFAQはこちら