https://aws.amazon.com/jp/premiumsupport/technology/pes/, https://status.aws.amazon.com/rss/all.rss, https://status.cloud.google.com/incident/storage/19002, Google App Engine で 74円で 独自ドメイン + SSL証明書を設定してみよう, Google App Engine (GAE) チュートリアル – GAEアプリ・サービス・バージョン・インスタンス理解編. 「Tokyo」で検索しても120件。。。全件手動で登録するのは無理ですね。 まで, ※番組に関するキーワード、およびグラフはTwitterへの投稿データをもとに表示しています。放送局が提供する情報とは一切関係ありません。. Wi-Fi切る イベント. 10月1日から東京発着の旅行も対象に加わった政府の観光支援策「GoToトラベル事... 【愛媛コロナ】野間翔太と岡本賢矢を逮捕! 特定男性を名指し「コロナ感染者」と顔写真入りのビラを撒く. 青森県は16日、県内できょう新たに26人が新型コロナウイルスに感染したと発表した... 【PS4アプデ】「パーティ使えない」「フレンド消えた!」ユーザから不満続出 解決方法は??. Statusはオールグリーンでインシデント記録も見当たらない。, にのみだいじょうぶかな笑笑 twitter.com/Trainfo_NEWS/s…, む、AWSトラブってる?? twitter.com/Trainfo_NEWS/s…, ともくんが過労死してしまう! twitter.com/Trainfo_NEWS/s…, @HSakai7 DAZN繋がりません。大規模な障害が起きているみたいです。twitter.com/Trainfo_NEWS/s…, ON行政書士事務所/ONネット戦略コンサルティング【行政手続/法律関係&ホームページ/チラシ制作】, 日本のIT力が低下し、外資サービスにばかり依存しているから、GoogleやAmazonがトラブルと影響がデカイ twitter.com/Trainfo_NEWS/s…, なんかすごいトラブルが発生しているらしい。サッカー民が爆発している・・・ twitter.com/Trainfo_NEWS/s…, 繋がらないと思ったらコレか。 これで私は見れてます. https://dev.classmethod.jp/articles/service-health-status-history/, https://status.aws.amazon.com/data.json You seem to be reading articles frequently this month. 米Twitterのサービスで、日本時間の10月16日午前から障害が発生しており、... 【未開封費】グッズ代行に未開封費要求で騒然 「普通未開封でしょ?」 ツイステ、あんスタ界隈にも出没?. 処理時間も30秒以内に終わるので、API GatewayでRSSを配信できます。, data.jsonを使って履歴を確認するWebサイトにしてみました。 AWS上のシステムを運用している人たちにとって、AWSの障害情報の収集は大切なお仕事の一つです。少しでも自分に合った形で効率的に情報収集できるやり方を見つけたいものですね。 この記事をシェアする. What is going on with this article? ' ちょっと確認してみるか... AWS障害だと知らずにデータ消えたかもってなったから心配になって引き継ぎ再設定する始末, AWS障害のソースがわからん AWSも無敵ではありません。, AWSに障害が発生した場合には、こちらのサイトでアナウンスされます。 この例ではService Health Dashboardのタブを一つ指定して処理をするようにしました。 AWS・Azure・GCP の障害情報やステータスを取得する方法をまとめます。 AWS の障害情報. AWSやAzureといったクラウドでも障害は起こります。クラウドの障害対策としてよく採用されている「バックアップ」「監視と手動切換え」「AutoRecovery」「HAクラスタ」の4つについて解説いたしま … ※以下、全部だと多すぎますのでAsia Pacificに絞っています。, 上記のファイルをFeedlyなんかに入れてあげて、Chromeの拡張機能でFeedly Notifierを使えばもうバッチリですね。, 最後に、いまの時代、情報を収集して閲覧するのにはいろいろなツールやWebサービスがありますよね。RSSリーダーは使っていないという人向けに、おまけのもう一工夫いってみます。今回は、Twitterに連携してみたいと思います。「今回は」というのは、これから紹介する方法であれば、いろいろなツールと連携が可能ですので、ぜひ参考にいろいろ試してもらえるとよいかと思います。, IFTTTとは、いろいろなWebサービスたちを相互に連携させることができるWebサービスです。これを使えば、簡単にFeedlyからTwitterに連携できてしまいます。・・・とやりたかったのですが、残念ながらFeedlyからIFTTTへの連携には、Feedlyをアップグレード(有償)しないといけないようです。うーん、悔しい!, ということで、代わりにInoreaderというRSSリーダーを使用します。ログイン後の画面はこんな感じです。, そして、試しに一つ登録してみるとこうなります(無料版なので広告が表示されてしまいます)。, 次に、IFTTTへ連携させるために少し設定をします。上記画面の右上の歯車アイコンから設定画面を表示させ、「購読とアイテム」という項目を選択します。, 上記画面で、対象アイテムの左側にあるチェックボックスにチェックを入れ、「バンドルの作成」というプルダウンメニューから「新規フォルダーに追加」を選択し、「Go」ボタンをクリックします。今回は、”AWS Service Status”というフォルダ名にしました。あと、ついでに対象アイテムの右側にあるロケットアイコンをクリックしておきます(詳細な説明は省略します)。, 最後に、設定画面で「フォルダーとタグ」を選択します。先ほど作成したフォルダ名が表示されていますので、右側の「エクスポート OFF」をクリックして「エクスポート ON」にしてください。すると、「RSSフィード」が表示されるので、このURLを控えておきます。, 上部メニューから「My Recipes」を選択し、「Create a Recipe」をクリックします。, レシピの作成画面が表示されたら、そこからはフィーリングでポチポチしていく(RSSとTwitterを選択)と以下の画面にたどり着き、「Create Recipe」をクリックすれば完了です。, さて、いかがでしたでしょうか? 駅探は生きていた。 twitter.com/Trainfo_NEWS/s…, if Nintendo Switch Online Japan is shutting down. Twitterいつ兄@team★Seira大阪本部長兼企画部長、しぶりんNo.20@seiji09170, Twitterフリーのイラスト。Free illustration. 現在AWS障害! 大手にログインできない状態!? ApacheWebServer障害? これだったら物凄い広範囲になると思うけど、 今はAHSなのか? 4/20の東京リージョンの障害のあとにもバージニアのEC2、4/22のCloudFrontにも障害があったようです。, https://aws-status-rss.s3-ap-northeast-1.amazonaws.com/index.html, JSONを取得して整形しているだけですが、data.jsonの取得はCORSに引っかかるため、API GatewayのHTTP APIにてCORSを有効にしたHTTP プロキシ統合を作って回避しました。. 愛媛県今治市で特定の男性を名指しし、新型コロナウイルスの感染者だと中傷するビラを... 【バレ】鬼滅の刃・上弦の参・猗窩座 (あかざ)の声優は石田彰!結核の青年は江口拓也など豪華声優勢揃い. @B86zH7ldAVDmgNP, 注目度の推移をご覧いただくには、JavaScriptの設定を有効にしていただく必要があります。, 2020年 9月17日2020年 9月18日2020年 9月19日2020年 9月20日2020年 9月21日2020年 9月22日2020年 9月23日2020年 9月24日2020年 9月25日2020年 9月26日2020年 9月27日2020年 9月28日2020年 9月29日2020年 9月30日2020年 10月1日2020年 10月2日2020年 10月3日2020年 10月4日2020年 10月5日2020年 10月6日2020年 10月7日2020年 10月8日2020年 10月9日2020年 10月10日2020年 10月11日2020年 10月12日2020年 10月13日2020年 10月14日2020年 10月15日2020年 10月16日2020年 10月17日 AWS障害起きてんの?? わいは絶対出社しないぞ — ゆう (@yuu_frontal) September 26, 2020. (2020/6/13更新)後半に記載しているJSONですが、どうも更新にタイムラグがあるようで、状況が[RESOLVED]になってから登録されるようです。, 4/20の夜にAWSの東京リージョンでSQSやLambdaに障害があったようです。 All rights reserved. Wi-Fiでdazn起動する 軽くググって先人たちがいろいろやっていた形跡は見つけられたのですが、どれも情報が古くてこれだってものがありませんでした。, で、試行錯誤して以下のようにOPML形式でファイルを作成すれば、RSSリーダーにインポートできるようになりました。・・・って、こんなことはみなさんもやってますかね。。 Qiita can be used more conveniently after logging in. 1 aws障害情報の集め方2 awsの障害を予防するためにできる対策3 今までに起きた障害一覧4 まとめawsがいくら素晴らしいといっても、やはり人間が作ったもの。つまり、awsも一般的なコンピュータシステムと同じように障害は発生しているの will it revert back to free play? © Copyright 2020 クラウドサービス徹底比較・徹底解説 (2020年版). 「amazon システム障害」に関するYahoo!検索(リアルタイム)検索結果。Yahoo!検索(リアルタイム)は、今発信されたリアルタイム情報を検索できたり、テレビ放映中番組に関するTwitter上での反響などもチェックできる検索サービスです。 EVENT 【11/4(水)リモート】クラスメソッドの会社説明会を開催します. [CDATA[AWS Service Status]]>', 'https://status.aws.amazon.com/data.json', https://dev.classmethod.jp/articles/service-health-status-history/, you can read useful information later efficiently. 横浜駅西口高島屋駅で自動車の暴走事故があったようです。それに関するツイッター上の... 池袋駅で発生した窓ガラス破損の影響で、内回りの列車に遅れが出ています。それに関す... JR神戸線 明石~西明石駅で人身事故が発生しました。 現在運転の運転見合わせ・遅... 【青森コロナ】一気に26人感染!「クラブ 縷・シャモン」「スナック シャモン」でクラスター. Qiita can be used more conveniently after logging in. 14日午後11時50分ごろ、千葉市若葉区桜木の歩道上で、「血だらけで人が倒れてい... 【これはひどい】「GoToトラベル事務局」に大手旅行代理店の社員が出向、ほとんど仕事せず日当4万円. twitter.com/Trainfo_NEWS/s…, あーこれのせいで日本のほとんどのサービス重いんだな twitter.com/Trainfo_NEWS/s…, パズドラは現在問題ありません twitter.com/Trainfo_NEWS/s…, 見れてる報告多いがなにが起こってるん? twitter.com/Trainfo_NEWS/s…, この間もあったよねぇ( ˘ω˘) twitter.com/Trainfo_NEWS/s…, なんか前もあったような気がするでち twitter.com/Trainfo_NEWS/s…, さっき Paraviが 【速報】AWS(アマゾンウェブサービス)で障害発生! DAZN市長などのサービス復旧方法が報告される. 26日18時ごろから、「TVer」「Hulu」「Paravi」「DAZN」などのサービスや、「パズドラ」「FGO」「駅メモ」「Nintendo Switch Online」など日本国内の複数のサービスが利用できなくなっているとの情報が相次いでいます。, @Trainfo_NEWS dazn これにより、nagiosからの監視情報と同じく、iPhoneでAWSの稼働情報も受け取ることが出きるようになりました。 Amazon Web Servicesクラウドデザインパターン設計ガイド 改訂版(日経BP Next ICT選 … You need to log in to use this function. アマゾン ウェブ サービス(aws)は、信頼性と拡張性に優れたクラウドコンピューティングサービスを低料金で提供しており、190か国の100万以上、日本国内では10万以上のお客様にご利用いただいています。aws アカウントの作成は無料で、40以上のサービスを無料でお試しいただけます。 どんなに注意深く設計されたサービスであっても、時折お客様に、aws のサービスでのセキュリティやプライバシーに関わるイベントを通知する必要があります。セキュリティ速報は以下のように発表されます。また、 当社のセキュリティ速報 rss https://status.aws.amazon.com/, こちらのサイトにはRSSも配信されているので、RSSリーダーでチェックしておくと良いですね。 26日18時ごろから、「TVer」「Hulu」「Paravi」「DAZN」などのサービスや、 ダッシュボード見る感じ特に問題なさそうだけど... 繋がらなくなった原因は 今回のコラムでは、クラウドの障害対策の4つの方法と、最も信頼性のある構成について考えていきます。, 2019年の8月23日にAWSの東京リージョンで大規模な障害が発生しました。この障害のため、東京リージョンに配置される一部のEC2インスタンス(IaaS)、RDS(データベースのサービス)が使用不可となりました。, 最近は多くの重要なシステムがクラウドのIaaSに移行されています。今回の障害を受けて、不安を感じた事業者は少なくなかったでしょう。, しかし、この障害において、当社の高可用性ソリューションである「AZをまたいだHAクラスター構成」は被害を受けずサービス提供を継続できました。今一度、システムの障害対策が十分なのかどうか考えてみましょう。, AWSでもし障害が発生した場合、簡単に確認する方法をいくつか紹介します。動作がおかしい場合など、まずは確認してみましょう。, AWSで障害が発生したことは、ダッシュボードから確認ができます。まずはAWSにログインし、管理画面を開きます。もし、画面右上にあるベル型のアイコンにチェックが入っていたら、何か情報があるということです。そこをクリックすると、ダッシュボードが開き、「Open Issue」が確認できます。表示されている数字が発生した件数であり、イベント内容と事象が発生したリージョン名、発生日時が開示されています。, 発生しているイベントをクリックすれば右側のペインに開くため、そこで詳細情報を確認しましょう。ダッシュボード以外にも、公式に各リージョンの状況を発表しているサイト「Service Health Dashboard」でも障害情報を確認できます。これは各リージョンのサービス状態を一覧で参照できるものです。, 各サービスの右にある「RSS」をクリックすると、過去の障害情報が記載されています。これをRSSリーダーで読み取れば、過去をさかのぼって、障害履歴が確認することができます。一番下にあるリンク「AWS Post-Event Summaries」にアクセスすると、これまで起きた大規模障害に対する原因と対策レポートも確認できます。, 公式サイトでの障害発生情報は、小さな障害や単なるバグは記載されないこと、反映が遅いことから、現在の状況をリアルタイムに確認できません。そのため、参考程度に見るとよいでしょう。, AWSの調子が悪く、何が起きているのかすぐに確認したい場合は、Twitterを見ることをおすすめします。これは非公式情報ですが、誰かがつぶやいていたら、何かしら障害が起きた可能性が高いということです。, 東京リージョン関連の障害発生用の非公式Twitterアカウント(@awsstatusjp)もあるため、参考にしてみるとよいでしょう。これは、公式サイトの各サービス状況の横にあるRSSフィードを自動収集したものです。, これまで実際に起きた、AWSの過去の障害事例を紹介します。どのようなことが起きたのか、自社システムの可用性を高めるための参考にしてみてください。, 2011年にEU-WESTリージョンで障害が発生し、EC2・RDS・EBSのサービスにそれぞれ問題が発生しました。, これらのサービスは一旦停止され、利用者からはアクセスできないようになりました。原因は、電力事業者の110kv 10メガワット変圧器が故障したためです。, この故障により、完全に電力供給を失いました。通常であれば、バックアップの発電機から電力が供給されるのですが、大規模な地絡事故の影響もあり、正常に作動できなかったようです。停電時は短時間の電力供給をする無停電電源装置(UPS)が作動しましたが、電力をすぐに使い果たしてしまい、影響のあるサーバーは全てダウンしてしまいました。, 再発防止として、バックアップ発電機からの供給方法を改善し、大規模な事故に影響を受けないような仕組みを検討するとのことです。, 影響を受けた利用者に対しては、EBS ボリューム、EC2 インスタンス、RDS データベースインスタンスの利用料金10日分が提供されました。さらに、誤ってスナップショットのブロックを削除するEBS ソフトウェアバグの影響を受けた利用者には、EBS利用料金30日分が提供されることになりました。, 2011年にUS-EASTリージョンにおいて、EC2の障害が発生しました。サービスは停止状態になり、復旧するまでにかかった期間は約3日間です。, 原因は、ネットワーク増強時のヒューマンエラーでした。ネットワーク増強のために、スケーリング作業をします。最初の作業として、プライマリーネットワークのトラフィックを別のルーターに移動しなければならなかったのですが、誤って低レベルトラフィック側のルーターに分岐させてしまったようです。, ルーターは大量のトラフィックを扱いきれず、各ノードに問題を起こしていきました。一つの事象から、さまざまな問題を発生させ、結果的にはAZデータベースインスタンスの0.4%を損失してしまったのです。Amazonは、この事象で、大規模なリカバリ処理に多くのディスク容量が必要だと判明したため、大きくストレージの容量を増やすことを発表しています。, 問題発生により被害が出た利用者には、影響を受けたEBS ボリューム,EC2 インスタンス,RDS データベースインスタンス利用量の100%について、10日分のクレジットを提供することになりました。, 2012年6月にUS-EAST1リージョンで発生した事故により、InstagramやNetflixなどのサービスに影響を及ぼしました。, これは、自然災害による電源障害が原因です。嵐が起きた夜、電源がダウンしたため電力供給がUPSに切り替わったのですが、電力が枯渇して一部のデータセンターが停止したのです。, これが引き金となり、EC2・EBS・ELB・RDSなどのサービスに障害が発生し、複数のアベイラビリティゾーンに波及しました。電気供給は発電機に切り替わりましたが、通常運転に戻ったあと2度目の電力障害が起きてしまうなど、電力供給トラブルがたびたび発生。, 前例で電力障害によるサービス停止が相次いだにもかかわらず、再度このような問題が発生してしまいました。堅ろうにハードウエアを守っているデータセンターといえども、自然災害は想定できないような事象を発生させるようです。, 2012年12月24日のクリスマスイブにアメリカでAWSの障害が発生し、Netflixなどのサービスがトラブルに巻き込まれました。場所は、US-EASTリージョンです。, メンテナンス時のオペレーションミスが、システム障害を発生させました。発生箇所はロードバランサ―であり、このミスにより一部のステートデータが削除されてしまったのです。, 被害の拡大を止めるべく、ステートデータを復旧し、正常運用に戻しました。障害発生から復旧までにかかった時間は約1日です。この事象により、Amazonは運用中のELBステートデータに対するアクセスコントロールについて、変更管理システムの承認なしには変更できないようにしました。また、データリカバリープロセスも改善し、迅速にリカバリできるようにするとのことです。, 2016年にオーストラリア東海岸を襲った豪雨により、AP-SOUTHHEAST-2リビジョンで障害が発生しました。主に影響が出たサービスはEC2です。, 豪雨被害が深刻化する中、やがてEC2への接続障害が散見されるようになりました。発生していた事象は、電源障害です。回復措置として、電源の修理、影響を受けていたインスタンスの接続復旧作業を実施。事象が発生して、約18時間後に全回復しています。, 豪雨被害は、日本各地で多く発生しています。このように、システムがいつトラブルに巻き込まれるかわかりません。高い可用性を実現するためには、クラウドシステムといえども、状態の監視から遠隔地に設置した待機系への切り替えなどの仕組みを独自で導入しておくとよいでしょう。, 2017年に、US-EAST-1リージョンがダウンし、クラウドストレージであるS3のサービスが一部停止、もしくは全く使えなくなる事象が発生しました。, この障害は、サービスを利用している顧客のウェブサイトやアプリケーション、デバイスに影響を与えています。大きな混乱を招いた故障ですが、原因は作業中の誤ったコマンド入力によるものでした。ちなみにUS-EAST-1リージョンの利用者が少ない日本などでは、おもだった影響はなかったようです。, コマンドは確率された手順に則ったものでしたが、このように注意を払いながらも、原因不明な故障が起きる場合があります。作業は既知の問題に対処するためのものでした。メンテナンスを行う以上、稼働しているシステムに影響を与える可能性は大いにあるのです。クラウドサービスはデータセンターで電源を冗長化していたり、耐震設計のラックを利用していたりするなど、ハードウエアを守る対策は得意としています。, 最後は2019年のAP-NORTHEAST-1の東京リージョンで起きた障害事例を紹介します。この事象は主にEC2・EBSに影響を与えました。, 条件によっては、RDSやRedshift、ElastiCache またはWorkspacesにも不具合が発生しています。原因は、東京リージョンの単一アベイラビリティーゾーンでのオーバーヒートです。これにより、EC2インスタンスまたはEBSボリュームのパフォーマンスが低下しました。, データセンターは熱暴走を防ぐために、一定の低い温度で保つよう空調が整備されています。しかし、今回はその空調設備の管理システムに障害が発生したため、温度管理ができなくなってしまったのです。約3時間後に空調は回復し、室温も正常に戻りましたが、その後も回復措置が遅れます。通常は高可用性を実現するための制御システムが、異常事態では逆に悪影響を及ぼしていたからです。, Amazonは、空調ユニットを制御する方法の変更や、バグが発生した場合の制御システムのフェールオーバー機能を無効化にし、今後同じ事象が発生しないよう、対策を講じるとのことです。安心・安全設計のデータセンターでも、予期しないトラブルに巻き込まれる可能性は大いにあります。システムの設置場所を一つにするのではなく、遠隔地へ待機系を用意しておくなどの対策も有効でしょう。, 1.Auto Recoveryによる対策(AWSの標準機能)2.監視ツールと手動操作による対策3.バックアップによる対策4.HAクラスターによる対策, クラウドの標準機能で障害対策を取られているケースは多いと思います。例えばAWSの場合は EC2の「Auto Recovery」機能が有名です。, Auto Recoveryは、物理ホスト側の問題を検知してEC2インスタンスを自動復旧してくれるサービスです。EC2インスタンス上で動いているアプリケーションの障害までは検知してくれませんが、基板側の障害については一定の信頼を得られます。, しかし2019年の8月23日にAWSの東京リージョンで発生した大規模障害では、Auto Recoveryでも自動復旧に失敗するケースがあったようです。原因としては、Auto Recoveryは作動したが、肝心の物理ホスト側が障害から回復しておらずに自動復旧が失敗したのではないかと考えられます。, 多少止まっても影響が小さいシステムであればこの方式でも問題ないと言えますが、ECサイトや銀行ATMなど止められないシステムの対策としては、確実に別のAZ(Availability Zone)での復旧が対策になると考えられます。AZをまたいで復旧することで、別のAZで起こった障害から隔離できる確率が上がるといえます。, EC2上でZabbixなどの監視ツールを使って障害対策をされるケースもあります。監視ツールが障害を検知したら手動で再起動させるという運用もよく聞きます。この方式の長所は、Auto Recoveryでは検知できないアプリケーションの障害も監視ツールが検知してくれる点にあります。, 反面、手動操作を前提としているので、人的な負担や復旧時間の長さ、操作ミスのリスクがあります。また、今回のような大規模障害の場合は、そもそも仮想マシンの再起動の操作ができない可能性もあります。, 多少止まっても影響が小さいシステムであればこの方式でも問題ないと言えますが、止められないシステムの対策としては、自動的に障害を検知して別のAZで復旧できる仕組みが必要になります。, バックアップはどのシステムでも使われていますが、障害対策の観点では次の点に注意が必要です。, まずバックアップは、バックアップを取った時点の状態に確実に戻せます。この点はメリットでもありますが、障害が起きた時点のできるだけ近くの状態に戻すことはあまり得意ではありません。(RPO(目標復旧時点)の観点), またバックアップからのリストアにはそれなりに時間がかかるので、大事なシステムをすぐに復旧させたい場合は注意が必要です。(RTO(目標復旧時間)の観点), さらに今回のような障害時にバックアップを取ったデータを別のAZで復旧させたい場合には、ネットワークなどの環境の相違点の対応が必要になる場合もあります。多少止まっても影響が小さいシステムであればこの方式でも問題ないと言えますが、基幹系など止められないシステムの対策としては、RTOとRPOが短くかつ他のAZでも修正不要で復旧できる仕組みとの併用が必要です。, HAクラスターとは稼働系と待機系でサーバーを2台用意し、稼働系システムに障害が発生した際に自動的に待機系システムに切り替える仕組みです。, HAクラスターソリューションは、これまで説明した「障害の自動検知と自動復旧」「別のAZでの復旧」「RPOとPTOの短縮」すべてを実現するソリューションです。, 代表的なHAクラスターソリューションとしては、サイオステクノロジーのHAクラスターソフトLifeKeeperとデータレプリケーションソフトDataKeeperがあります。, LifeKeeperは当社のHAクラスター製品で、グローバルで25年・6万ライセンス以上使われている実績のある製品です。AWSやAzureなどのパブリッククラウドにもいち早く対応しており、既に多くの導入実績があります。, DataKeeperは当社のデータレプリケーション製品で、ブロックレベルのリアルタイム・レプリケーションにより、LifeKeeperに論理的な共有ストレージとして認識されます。これにより、物理的な共有ストレージが使えないクラウド環境でも、オンプレと同じ感覚でHAクラスターの構築が可能です。, 下記ページでは導入事例や詳細な構築手順ガイドを公開しております。ぜひこれらをご覧いただいて、今後のクラウド環境の障害対策にお役立てください。, AWSなどの大手クラウドプラットフォームサービスでも、多くの障害事例があります。システムを運用している限り、いつどのような事象が発生するのかわかりません。, 運用を守るためには、独自の高可用性を実現できる仕組みづくりが必要です。SIOS LifeKeeperは、ハードウエアからアプリケーションまで、幅広い障害を検知した際に自動で待機系へ切り替えます。素早い判断で、業務停止時間を大きく減らすことができます。, クラウドの障害から止められないシステムを守るためには、システム停止の許容時間やコスト負担に応じて様々な選択肢があります。自社の要件に応じて適切な方法を選び、対策を検討してみてはいかがでしょうか。, 企業の重要な業務アプリケーション環境を保護する、HAクラスターソフトウェアを開発・提供しています, しかし、この障害において、当社の高可用性ソリューションである「AZをまたいだHAクラスター構成」は被害を受けずサービス提供を継続できました。, AWSで障害が発生したことは、ダッシュボードから確認ができます。まずはAWSにログインし、管理画面を開きます。もし、画面右上にあるベル型のアイコンにチェックが入っていたら、何か情報があるということです。, そこをクリックすると、ダッシュボードが開き、「Open Issue」が確認できます。表示されている数字が発生した件数であり、イベント内容と事象が発生したリージョン名、発生日時が開示されています。, 発生しているイベントをクリックすれば右側のペインに開くため、そこで詳細情報を確認しましょう。, 」でも障害情報を確認できます。これは各リージョンのサービス状態を一覧で参照できるものです。, 各サービスの右にある「RSS」をクリックすると、過去の障害情報が記載されています。これをRSSリーダーで読み取れば、過去をさかのぼって、障害履歴が確認することができます。, 一番下にあるリンク「AWS Post-Event Summaries」にアクセスすると、これまで起きた大規模障害に対する原因と対策レポートも確認できます。, この故障により、完全に電力供給を失いました。通常であれば、バックアップの発電機から電力が供給されるのですが、大規模な地絡事故の影響もあり、正常に作動できなかったようです。, 停電時は短時間の電力供給をする無停電電源装置(UPS)が作動しましたが、電力をすぐに使い果たしてしまい、影響のあるサーバーは全てダウンしてしまいました。, 影響を受けた利用者に対しては、EBS ボリューム、EC2 インスタンス、RDS データベースインスタンスの利用料金10日分が提供されました。, さらに、誤ってスナップショットのブロックを削除するEBS ソフトウェアバグの影響を受けた利用者には、EBS利用料金30日分が提供されることになりました。, 原因は、ネットワーク増強時のヒューマンエラーでした。ネットワーク増強のために、スケーリング作業をします。, 最初の作業として、プライマリーネットワークのトラフィックを別のルーターに移動しなければならなかったのですが、誤って低レベルトラフィック側のルーターに分岐させてしまったようです。, ルーターは大量のトラフィックを扱いきれず、各ノードに問題を起こしていきました。一つの事象から、さまざまな問題を発生させ、結果的にはAZデータベースインスタンスの0.4%を損失してしまったのです。, Amazonは、この事象で、大規模なリカバリ処理に多くのディスク容量が必要だと判明したため、大きくストレージの容量を増やすことを発表しています。, これが引き金となり、EC2・EBS・ELB・RDSなどのサービスに障害が発生し、複数のアベイラビリティゾーンに波及しました。, 電気供給は発電機に切り替わりましたが、通常運転に戻ったあと2度目の電力障害が起きてしまうなど、電力供給トラブルがたびたび発生。, 前例で電力障害によるサービス停止が相次いだにもかかわらず、再度このような問題が発生してしまいました。, 堅ろうにハードウエアを守っているデータセンターといえども、自然災害は想定できないような事象を発生させるようです。, 被害の拡大を止めるべく、ステートデータを復旧し、正常運用に戻しました。障害発生から復旧までにかかった時間は約1日です。, この事象により、Amazonは運用中のELBステートデータに対するアクセスコントロールについて、変更管理システムの承認なしには変更できないようにしました。, また、データリカバリープロセスも改善し、迅速にリカバリできるようにするとのことです。, 豪雨被害が深刻化する中、やがてEC2への接続障害が散見されるようになりました。発生していた事象は、電源障害です。, 回復措置として、電源の修理、影響を受けていたインスタンスの接続復旧作業を実施。事象が発生して、約18時間後に全回復しています。, 豪雨被害は、日本各地で多く発生しています。このように、システムがいつトラブルに巻き込まれるかわかりません。, 高い可用性を実現するためには、クラウドシステムといえども、状態の監視から遠隔地に設置した待機系への切り替えなどの仕組みを独自で導入しておくとよいでしょう。, この障害は、サービスを利用している顧客のウェブサイトやアプリケーション、デバイスに影響を与えています。, 大きな混乱を招いた故障ですが、原因は作業中の誤ったコマンド入力によるものでした。ちなみにUS-EAST-1リージョンの利用者が少ない日本などでは、おもだった影響はなかったようです。, コマンドは確率された手順に則ったものでしたが、このように注意を払いながらも、原因不明な故障が起きる場合があります。, 作業は既知の問題に対処するためのものでした。メンテナンスを行う以上、稼働しているシステムに影響を与える可能性は大いにあるのです。, クラウドサービスはデータセンターで電源を冗長化していたり、耐震設計のラックを利用していたりするなど、ハードウエアを守る対策は得意としています。, 条件によっては、RDSやRedshift、ElastiCache またはWorkspacesにも不具合が発生しています。, 原因は、東京リージョンの単一アベイラビリティーゾーンでのオーバーヒートです。これにより、EC2インスタンスまたはEBSボリュームのパフォーマンスが低下しました。, データセンターは熱暴走を防ぐために、一定の低い温度で保つよう空調が整備されています。しかし、今回はその空調設備の管理システムに障害が発生したため、温度管理ができなくなってしまったのです。, 約3時間後に空調は回復し、室温も正常に戻りましたが、その後も回復措置が遅れます。通常は高可用性を実現するための制御システムが、異常事態では逆に悪影響を及ぼしていたからです。, Amazonは、空調ユニットを制御する方法の変更や、バグが発生した場合の制御システムのフェールオーバー機能を無効化にし、今後同じ事象が発生しないよう、対策を講じるとのことです。, 安心・安全設計のデータセンターでも、予期しないトラブルに巻き込まれる可能性は大いにあります。システムの設置場所を一つにするのではなく、遠隔地へ待機系を用意しておくなどの対策も有効でしょう。, さらに今回のような障害時にバックアップを取ったデータを別のAZで復旧させたい場合には、ネットワークなどの環境の相違点の対応が必要になる場合もあります。, 多少止まっても影響が小さいシステムであればこの方式でも問題ないと言えますが、基幹系など止められないシステムの対策としては、RTOとRPOが短くかつ他のAZでも修正不要で復旧できる仕組みとの併用が必要です。, AWSで「インターネットに出てはいけない」要件を解決する方法~PrivateLink対応~, Amazon CloudWatchの監視項目を解説!標準・カスタムでできることと注意点, SQL Server を「Microsoft Azure」上に移行する際の課題と方法。そしてAzure上でのデータベースの可用性をさらに高めるLifeKeeper/DataKeeper. 26日18時ごろから、「TVer」「Hulu」「Paravi」「DAZN」などのサービスや、 「パズドラ」「FGO」「駅メモ」「Nintendo Switch Online」 など日本国内の複数のサービスが利用できなくなっているとの情報 … daznを落とす ここまで頑張って作ったあとに、全リージョンの障害情報が取得できるJSONファイルがあることを知りました。さすがClassmethodさん。憧れる。 【小ネタ】AWSで過去に発生した障害の履歴を確認する方法 | Developers.IO Why not register and get more from Qiita? (Slackに通知を行うとか今どきのものを考えたのですが、手動で120件も登録できません。。。), Lambdaで定期的にスクレイピングする作戦です。やってやれんことはない。 Service Health Dashboard にあります。 下記のように、現在の情報 (Recent Events) と、過去の情報 (Remaining Services) に分かれています。 右側の「RSS」をクリックすると、過去の障害履歴が載っています。ただ … Why do not you register as a user and use Qiita more conveniently? これにより、nagiosからの監視情報と同じく、iPhoneでAWSの稼働情報も受け取ることが出きるようになりました。 Amazon Web Servicesクラウドデザインパターン設計ガイド 改訂版(日経BP Next ICT選書… これをRSSにしてやれば、良さそうですね。 下記のように、現在の情報 (Recent Events) と、過去の情報 (Remaining Services) に分かれています。, 右側の「RSS」をクリックすると、過去の障害履歴が載っています。ただ、いつまでの情報が載っているかがよくわかりません。2012年の情報があるものもあれば、かなり以前からあるサービスなのに 2019年の情報しかないものもあります。最大15件のようにも見えるのですが、判断がつきませんでした。, また、画面一番下から、過去の大規模障害に対する原因と対策レポートに飛ぶことができます。, RSS フィードが数百個あるので調べるのも大変ですが、 https://status.aws.amazon.com/rss/all.rss という全部入りの RSS フィードもあります。ただし直近 15個のみです。また、なぜか AWS サイトからリンクが無いように見えます。以前はリンクされていたのか、あるいは誰かが URL を推測して見つけたのかは不明です。, また、画面右上にある「状態の履歴」というリンクから、下記のような詳細履歴に飛ぶことができます。 ただし直近90日分しか閲覧できないのが大変残念です。, 大きめの障害の場合、下記のように RCA (原因調査報告書) の体裁になっています。サマリ・回避策や、再発防止のために今後マイクロソフトが行うタスク (完了か進行中かがわかる) が載っています。, RSSフィードは下記からたどれます。リージョン別の RSS などはなく、全部入りの 1種類しかないようです。, 地味なところですが、下記のようにいつの情報なのかがわかるのはいいですね。どうやら毎分更新されているようです (ただし26秒前に取得した情報だからと言って、26秒前に全サービスの障害情報を調べた結果かというと違うでしょうけれども)。, 画面下の「View Summary and History」をクリックすると、下記のようなサービス別の障害一覧画面に遷移します。直近1年間分しか記載されていません。, 影響の大きい障害の場合、下記のようにサマリ・影響詳細・原因・今後の対策が記載されています。, これらの、各ベンダが公表する公式ダッシュボードは信用できるか。 当ページ管理人の考えは、「信用できない。あくまでひとつの情報源として扱うべし」です。, 「小規模障害は載らない」について。 クラウドサービス側の問題であっても、一定以上のユーザに影響が出ることが確認できないと、 ダッシュボードには載りません。少なくとも GCP はそう明言しています。そもそもハード故障は必ず起こるものであり、しかも何十万台・何百万台もあるサーバの 1台や、 あるいは 1ラックが落ちたとしてダッシュボードに載せるのは確かに現実的ではありません。しかしながら、どこまでが小規模障害なのかはわかりません。, これは推測ですが、結局のところダッシュボードに記載するかどうかは人が判断しているのだろうと思います。, クラウドサービス利用者としては、問題の切り分けや関係者への報告をするために、自動的に正常か否かのステータスを出してほしいだけなのに、今はそうなっていないと思われます。, 「単なる機能バグは載らない」について。 ダッシュボードに載るのは、ネットワーク障害・広範囲なハードウェア障害ですが、 機能バグは基本的には載りません。 クラウドサービスは機能追加・バグ修正のためのリリースが日々行われています。 さきほどまで動いていたあなたのシステムがいきなり動かなくなったのは、こっそり行われたリリースにて バグが混入されたからかもしれませんが、仮にそうであってもダッシュボードには載りません。 なお、いつ、どのようなリリースが行われるかの事前告知も事後告知もありません。, 「反映が遅い」について。 上記のように、人が判断しているため (推測です)、必然的に反映が遅くなります。 Azure で発生した東日本リージョン全体の障害で 1時間近くダッシュボードが更新されなかったことがありました。 また、笑い話ではありますが、AWS の S3 障害の際は、「ダッシュボード機能が S3 に依存していたため、最新情報を表示できない」というトラブルもありました。, 公式ダッシュボードが信用できないなら非公式なものに頼るしかありません。まず当ページ管理人がおすすめするのは Twitter です。, こういうときは Twitter で、「AWS」「Azure」「GCP」と検索するのが一番よいと思っています。 クラウドが原因となる障害は発生していた場合、誰かしらがつぶやいています。 誰もつぶやいていないなら、それはあなたのアカウントだけに発生している問題か、不人気サービスで誰も使っていないかです。, SNS で速報が欲しい場合や、時系列で見たい場合、松浦隼人氏 (doublemarket) が、上記サイトの RSS フィードを自動収集して ツイートするアカウントを提供されています。, 詳細は作者の記事 「AWS, GCP, Azureの障害情報の提供方法とTwitterボット」 を参照してください。, また、ダッシュボードの情報を Slack 連携・Chatwork 連携する方法なども、ググればすぐに見つかりますので、似たような機能を自作することも可能でしょう。, GCP に Stackdriver Logging という Web 上でログを表示できるサービスがあるのですが、ある日このサービスにてログ表示の遅延が発生しました。実際には出力されているログが 30分経っても 1時間経っても Web 画面には出てこなかったのです。, しかしながら画面の一番下までスクロールすると、しれっと「ログ表示遅れに対応中」と書いてあります。, その後、一番下の表記が下記に変わりました。「影響を受けている人が少ないため、個別にサポートに連絡せよ。このダッシュボードでは今後本件について更新しない」とのこと。, さらに30分後、想定よりも影響範囲が大きいことが発覚したのか、正式なインシデントとして「×」マークが付きました。, インシデントとなるまでに障害発生から 4時間半でした。ログという裏側のサービスとはいえ、4時間半も経たないと正式な障害として対応できず、RSS フィードなどで読んでいる人は 4時間半気づけなかったということです。「サービスを絶対に落とすな」と言いたいのではなく、「障害が発生しているのであれば迅速にわかりやすく教えてほしい」だけです。, 「GCP は利用者のことは考えず、技術だけが好きなエンジニアたちがが好き勝手にやっているクラウドサービスであるため、ビジネス用途には向かない」という人もいます。こんないい加減なことをやっているようでは、反論できませんね。. これかぁ! twitter.com/Trainfo_NEWS/s…, 駅メモ! 「パズドラ」「FGO」「駅メモ」「Nintendo Switch Online」 グッズ代行に未開封費要求する方がネット上に話題になっています。それに関するツイッ... 自称・留学生の外国人の女性が駅周辺で謎の菓子を販売。 Then how are japanese people gonna play switch games online? でんこの…アイコンが読み込まれなかったりしたのはコレのせいなのかな twitter.com/Trainfo_NEWS/s…, Twitter不具合発生! 通知が届かず ・ツイートが送信できず ・タイムライン更新できない等の事象. All Rights Reserved. など日本国内の複数のサービスが利用できなくなっているとの情報が相次いでいます。, ■ TNN NEWS 速報 ■ ただ、やっぱりいちいち見に行くのは面倒なので、RSSリーダーとかを使って更新情報を見れるようにしたいですよね。まあ、RSSフィードがあるのでそれを登録すればよいのですが・・・。, AWS Service Health Dashboardを見てもらえれば分かると思いますが、RSSフィードが山ほどあるんですね。これは登録が大変。。 ネット上の様々なサービスの中断や接続障害をリアルタイムに見つけ出し、状況をお知らせします。 Downdetector 障害の概要 Help us understand the problem. Wi-Fiに繋げる 『劇場版「鬼滅の刃」無限列車編』が16日、全国の劇場で公開された。人気作の劇場版... 横浜駅西口高島屋で暴走!「 習志野ナンバーが暴れたっぽい「初心者マーク張ってたし薬中か無免?」. できたファイルはS3にでも格納して外から見れるようにしましょう。 おはようございます、hisayukiです。盛大なお祭りもだいぶ収束に向かってきました。ソシャゲ大好きな人達のTwitterでの反応すごかったですね〜(;´∀`)さて、それでは昨日のAWS障害のお祭りについて書いていきたいと思います。障害発生
', '
http://status.aws.amazon.com/', '
中村蒼 映画,
猛烈 類義語,
ヨーロッパ 白地図 クイズ,
きめつのやいば テレビ 2020,
日の出 町 地名,
二階堂 ふみ 事務所,
ヨーロッパ 絶景写真,
和英辞典 おすすめ アプリ,
インフルエンザ 関節痛,
バラ ロナルド レーガン ローズ,
クラーク記念国際高等学校 偏差値,
イギリス英語 単語,
美食探偵 1話,
エヴァ ヴィレ ロゴ,
ウルクハイ ロードオブザリング,
Twitter ブックマーク 管理,
どんぐり 船,
インフルエンザ 診断書 陰性,
1リットル 何キロ走る,
まごころを君に その後 Ss,
Twitter トレンド 問題が発生しました,
エヴァンゲリオン アニメDVD,
満員電車 英語,
森七菜 3年A組 8話,
きめ つの や い ば(205話考察),
野鳥の名前 漢字,
香港風邪 パンデミック,
世にも奇妙な物語 動画,
サムライ8 打ち切り 理由,
下野紘 メガネ,
Properly 覚え方,
転スラ オークロード ネタバレ,