2021/9/2(木) AWS大規模障害について

2021/9/2(木) AWS大規模障害について

 こんにちは、ネットワーク技術部です。
 ブログ作成の為AWSについて調べていると、2021/9/2(木)に大規模な障害があった事を某経済新聞で知りました。
 原本も冗長で、それを説明してくれている記事も専門用語もそのままだったりよくわからない部分で区切っていたりなどして分かりにくかったため、こちらの要約をブログに書こうと思います。なお、あまりITに明るくない方でもわかりやすいように記載していますので、大まかにまとめています。薄目で見てください。

【現象】
2021年9月2日(木)7:30
AWSDirect Connectというサービスでサーバを東京リージョン(区域)にして使っていると、接続が切れる現象が起き始めました。「Direct Connect」とは『使用者のネットワーク環境からAWSまで、インターネット無しで接続できる』というAWSが提供しているサービスです。
この障害で影響を受けたのは以下です。

《ネット証券各社のサイトの一部にアクセスしにくくなる》
・三菱UFJ銀行のアプリ
・みずほ銀行アプリ
・SBI証券
《入金しにくい》
・au Pay
《更新遅れ》
・気象庁
《一時搭乗できず》
・羽田空港
《貨物の情報に関わる一部のシステムに影響》
・日本航空

(参照URL:「NHKニュース アマゾン子会社AWSで障害 データ管理サービス 広範囲に影響」https://www3.nhk.or.jp/news/html/20210902/k10013238691000.html 2021/11/25閲覧)

いずれも私たちが普段使っているアプリやサービスが多いですね。

【原因】
 2021年1月に新しく導入されたプロトコル(通信の約束事)とシステムの相性が悪かったようです。

【障害から解決迄】
Amazonが出している要約をさらに要約します。
原本はこちら
(参照URL:「東京リージョン(AP-NORTHEAST-1)で発生したDirect Connectの事象についてのサマリー」https://aws.amazon.com/jp/message/17908/ 2021/11/25閲覧)

《現象の確認と結果》
 アラームが飛び、AWSのエンジニアがDirect Connectに障害が起きた事を知る。7:30に障害を確認、12:30に復旧開始、13:42に問題解決した。
 他サービスで障害は起きておらず、東京リージョン(区域)以外のDirect Connectは影響を受けていない。

《Direct Connectの説明》
 Direct Connectは予備を作り、障害が起きてもなるべく接続ができるようにしている。

《現状》
 今回来たアラームはDirect Connectの為に使う機器の一部で起きており、正常にデータを転送できていないというもの。
 障害が起きた機器は自動で除外するように設定してるが、されていなかった。
 一方で、自動化処理は故障機器の除外はしていなかったが、機器の故障率が高いから直すようアラートを飛ばしていた。

《エンジニアの対応と結果》
 予備がある為、問題のある機器を切り離し、同時に故障の原因も調べる。故障した機械を切り離すと一瞬直ったが、他のDirect Connect用の機器でも同様の障害が起こるようになる。
 時間が経つごとに障害が増える。色々試して色々調べるも中々直らない。
 今年の1月に導入された新プロトコル(約束事)は関係ないかと考える。
 プロトコル(約束事)を使えないようにすると復旧した。東京にある機械は全てプロトコル(約束事)を無効化の準備をする。
 12:30に復旧、13:42に復元し通常動作に戻った。

《現象の振り返りと根本原因》
 新しいプロトコルを無効にするとこの事象は解決したが、そもそもなぜ新しいプロトコルだと問題が起きるのか、根本的な原因を調べた。
 結論から言うと、大元のシステムとプロトコルの相性が悪かった。
 ~~~システムとプロトコルの関係の説明~~~
 新しいプロトコルと大元のシステムは2021年1月に導入されており、8ヵ月の間問題は潜んでいた。
 今回の障害は非常に珍しい問題で、特殊なデータ同士を組み合わせた上で継続してこのデータに接続すると起こる、とエンジニアは判断した。
 誰が悪いわけでもない。
 もう一度言うが、AWSの東京リージョン(区域)で問題を起こした新プロトコルを無効化した。
 今後他のリージョン(区域)で同じ事が起こらないよう、拡張機能を開発したので安心してほしい。

《謝罪》

というような事が日本語に訳されて記載されていました。

【所感】
 AWSのエンジニア様は今回の障害が非常に稀と仰っていますが、新しいプロトコルは今後も増えていきますから、いつ自分たちが使用しているサービスでこのような事が起きるかわかりません。
 障害が起きた際の原因の一つとして頭の片隅に置いておくとよいかもしれませんね。(それにしても、障害発生からたったの約6時間で原因解明と対応をしたなんて、驚異的な早さですね。)