平素は弊社製品をご愛顧賜り厚く御礼申し上げます。
2017年1月30日に発生した障害の経緯および原因と対応についてご報告いたします。
■障害内容
■内容
サービスにアクセスすると遅いまたはサーバーメンテナンス画面が表示することがございました。
お知らせなどで新しくデータを登録することができないことがございました。
書庫やお知らせなど以前に登録したデータが表示されないことがございました。
障害発生時間:2017/1/30 9:07-13:32(JST)
■原因
クラウドストレージ障害に起因しストレージサーバーへのアクセス滞留・遅延によるリトライが大量に発生しました。
ストレージに長時間アクセスできない状態が続いたためにサーバー内のスレッド数が上限に達しサービス停止に至りました。
本サービスではデータをクラウドストレージに保存しています。
昨年に発生したクラウドストレージ障害の対応として2拠点あるクラウドストレージに振り分けてアクセスを行う対応を行いました。
今回のストレージ障害ではメイン利用しているストレージにアクセスし辛い状況が長時間続いたこと、発生時間が月曜朝かつ月末とサービスにアクセスが集中する時間帯であったため、復旧確認のために定期的にメイン側へ降られるアクセスが徐々に停滞、サーバー復旧作業を実施するも想定外の高負荷状態となりサーバー停止に至りました。
■対応内容
ストレージ障害発生時にもサービス停止することなくご利用できるよう以下の対応を実施いたしました。
- (2017/1/30 実施済)アプリケーションのストレージ処理の改善
・ダウンストレージへの復旧確認処理によるアクセス滞留が発生しないように処理を改善
・ストレージ障害時に急速にリクエストがたまらないよう処理を改善
引続き抜本的な対応を実施してまいります。
お客様の業務に多大なご迷惑をおかけしてしまったことを深くお詫び申し上げます。
安定したサービスを提供できるよう対応を行ってまいります。