東京証券取引所は2月2日に発生したシステム障害について、ハード障害に加え「人為ミス」が重なったことが原因だったと2月16日に発表した。東証のシステム子会社である東証システムサービスの担当者と富士通のSEが診断レポートを誤認し、東証のシステム部員も経営陣に適切な報告を怠っていた()。

図●東京証券取引所のシステム障害時に起きた運用ミス
[画像のクリックで拡大表示]

 これを受け、東証は障害対応体制の改善及び強化など、大きく四つの再発防止策を公表。システム運用を大幅に見直すとした。

 だが、この再発防止策は現時点では不十分だと言わざるを得ない。そもそもなぜ、ハード障害が発生したのかという、根本的な原因が究明されていないからだ。

 東証は障害を起こした「情報配信システム」のサーバーを三重化し、1台のサーバー(ノードA)にハード障害が発生した場合、残り2台(ノードB、ノードC)に自動的に切り替えて処理を継続する仕組みを取っていた。にもかかわらず、2月2日には自動切り替えに失敗した。その理由こそが焦点だ。

 記者会見した東証IT開発部の宇治浩明 株式売買システム部長は、ハード障害箇所を「ノードAのメモリーコントローラー」と特定した。一方で、自動切り替え失敗の原因は「ハードウエアの内部で複合的な障害が発生したことが理由ではないか」(宇治氏)と推定するにとどめた。ノードAはメモリーコントローラーが損傷したものの、完全停止には至らなかった。このため、ノードBとノードCはノードAが正常稼働していると錯覚し、自動切り替えに失敗したとの見立てが成り立つ。

 東証は富士通と共同で究明作業に取り組んでいる。だが、半月以上経過した2月下旬になっても、「まだ原因究明には至っていない」(東証)。ある関係者は「再現試験が難航している」と話す。

 東証は情報配信システムの改修も視野に入れているが、「当面は運用の強化でカバーする」(宇治氏)方針だ。システム担当者が診断レポートから確実に障害を見抜けるよう、マニュアルを整備することに加え、経営陣への報告体制を見直し、復旧までの時間を短縮する。早期にシステム障害の真相を明らかにし、抜本的な対策を取ることが求められる。

出典:日経コンピュータ 2012年3月1日号 p.12
記事は執筆時の情報に基づいており、現在では異なる場合があります。