米アマゾン ウェブ サービス(Amazon Web Services)は2019年8月23日に発生したクラウドサービス「Amazon Web Services(AWS)」の大規模システム障害について、8月26日までに障害の経緯をまとめた文書をWebサイトに掲載した。

 それによると今回の障害は、空調などを管理する制御システムに内在していたフェイルオーバー処理に関連するバグと、制御システムと空調装置などを接続するプログラマブル・ロジック・コントローラー(PLC)の異常動作が重なったことが原因としている。

米アマゾン ウェブ サービスが8月26日までに公表した、障害の経緯をまとめた文書。同日午前10時現在、同社のトップページなどからはリンクが張られていない
(出所:米アマゾン ウェブ サービス)
[画像のクリックで拡大表示]

 公表文書によると、障害が発生したのは8月23日の午後0時36分。東京リージョン(AP-NORTHEAST-1)のアベイラビリティゾーン(AZ)の1つで「冗長化された空調設備の管理システム障害」が発生。AZ内の室温が上昇したことで、当該AZで稼働させていたAmazon EC2のインスタンスとEBS(Elastic Block Store)のボリュームについて、電源の停止を含む「パフォーマンスの劣化が発生」(公表文書)したという。

 空調設備は午後3時21分に復旧。室温が通常状態に戻ったことで影響を受けたインスタンスの電源が順次回復した。その後、午後6時30分までにEC2インスタンスとEBSボリュームの「大部分」(同)が回復したものの、一部「基盤のハードウェアの障害」(同)が発生していたといい、ハードウエアの交換などを要したため復旧に時間がかかったとしている。

 データセンター内の空調設備は、複数のホストから成るデータセンター制御システムによって管理している。今回の障害が発生する直前に、制御システムを構成する複数のホスト群から1つのホストを外す処理をしたところ、ホスト群相互間のデータ送受信が大量に発生し、制御システムが応答しなくなったとしている。

 1つのホストを外した場合にホスト群相互間でデータを送受信すること自体は、ホスト群を構成する各ホストがデータセンターの最新情報を保持し続け制御システムをフェイルオーバーするための正常な処理だが、今回は「サードパーティ製の制御システムにおけるロジックのバグ」(同)により過大なデータ送受信が起こったとしている。

この先は有料会員の登録が必要です。有料会員(月額プラン)は初月無料!

日経 xTECHには有料記事(有料会員向けまたは定期購読者向け)、無料記事(登録会員向け)、フリー記事(誰でも閲覧可能)があります。有料記事でも、登録会員向け配信期間は登録会員への登録が必要な場合があります。有料会員と登録会員に関するFAQはこちら