カオスエンジニアリングとは、本番環境のなかで障害につながる可能性のある「実験」という名のイベントを複数発生させ、迅速かつ自動的に障害回避する一連のエンジニアリングのことである。企業は、エンドユーザーの満足度向上に大きく貢献するこの革新的手法を理解し、取り組みを開始すべきである。
大規模障害が絶えない国内企業
国内企業において、大規模かつ深刻なシステム障害が絶えない。DXの重要性が大きく叫ばれ、いまやITシステムは社会インフラにすらなっているにもかかわらず、この状態である。
2020年10月1日、東京証券取引所(以下、東証)の株式売買システム「arrowhead」において、全銘柄の売買が終日停止する大規模障害が発生した。そして、このトラブルの責任を取るかたちで東証社長(当時)が辞任する事態となった。この障害の直接の原因は、アクティブ/アクティブ構成という冗長機構を採用したNAS(Network Attached Storage)の一部が故障し、その際本来行われるべき別のストレージへの自動切替ができなかったことにある。2010年に稼働開始したarrowheadは、2015年にシステムを再構築した際に採用したNASの仕様が変わっていたが、その変更点をarrowheadマニュアルに反映することを忘れ5年間放置されていた。システム構築/運用担当のITベンダーが、自らの試験/確認が不十分であったことを認めている。
そのほかにも、みずほ銀行では、2021年末の最終営業日に、全銀システムに対する設定を誤ったことで為替送信に失敗し、約2,700件の他行宛ての振込みができなくなるという事態となった。さらに、2022年1月11日には、同行の法人向けインターネットバンキングにおいて接続障害が発生した。これらの障害は初歩的な設定ミスに起因するものだが、事前チェックも機能せず、迅速な復旧もできなかった。