CORESERVERの一部サーバーで共有ストレージ障害が1週間以上継続。

NO IMAGE

一部サーバーで発生しました共有ストレージ障害の対応状況につきまして

12台のRAIDで構成されているSSDの同時障害をきっかけにどうしようもないことになっているようです。

 

15台のサーバで同じDiskを使用してデータベースを使用していたのか

影響しているサーバ数がそれなりに多い様子。

 

■ 影響範囲対象サーバー:
s22.coreserver.jp
s60.coreserver.jp
s72.coreserver.jp
s82.coreserver.jp
s86.coreserver.jp
s110.coreserver.jp
s121.coreserver.jp
s139.coreserver.jp
s170.coreserver.jp
s176.coreserver.jp
s179.coreserver.jp
b26.coreserver.jp
b27.coreserver.jp
m34.coreserver.jp
m48.coreserver.jp

データベースの約1割でエラーが発生
高負荷状態に伴う断続的な表示障害
■ 時系列経緯弊社側での対応経緯は下記の通りとなります。

2019/10/28 04:00 ファイルのバックアップ処理がスタート
2019/10/28 04:15 RAIDを構成するSSD 12台構成のうち複数台で故障が発生、RAIDシステムが一時的にオフラインになる
2019/10/28 04:20 弊社エンジニアによる作業開始
2019/10/28 04:30 ファイルのバックアップ処理、データベースソフトウェアなどを緊急停止
2019/10/28 04:50 ストレージのバックアップを試みるが失敗、ファイルシステムエラーで読み取りができない状況が発生
2019/10/28 05:00 ストレージの再起動を実施
2019/10/28 05:15 RAIDシステムが認識されるもののファイルシステムエラーが発生
2019/10/28 05:20 ファイルシステムエラーの修復処理を開始
2019/10/28 06:00 RAIDシステム、SSDの交換の調整作業を開始
2019/10/28 12:00 ファイルシステムエラーの修復処理が完了
2019/10/28 13:00 RAIDシステム、ストレージハードウェア交換を実施
2019/10/28 17:00 交換作業が完了
2019/10/28 17:10 直近のバックアップデータからのデータ復元を実施
2019/10/29 01:10 データ復元を処理完了
2019/10/29 01:15 サーバー復旧
2019/10/29 02:00 一部、整合性の取れない状態を検知、バックアップからの復旧・修正開始
2019/10/29 09:00 データベース以外で復旧完了
2019/10/29 09:00 RAIDシステムで復元時に高負荷状態が発生(継続中)
2019/10/29 09:00 データベースのデータ復旧を実施
2019/10/29 15:00 約1割のデータベースにおいて、整合性の取れない状態があることが判明
2019/10/29 17:00 直近(10/28 04:00)のバックアップ処理で不完全な状態でデータベースのバックアップが発生していることが判明
2019/10/29 17:10 整合性取れない状態の判断が難しく、お問い合わせに応じて、手動復旧を開始
2019/10/29 18:00 RAIDシステムの負荷が高く、復旧に時間がかかる状態が発生(継続中)
2019/11/07 00:00 b26からデータ移行メンテナンス作業を開始

■ 現在の状況並びに復旧への取り組み状況

・対象サーバーのデータベース(約80ユーザー)

直近のダンプデータが取れるデータベースで、最新のデータと判断できるものについては復旧済み
直近のダンプデータが取れるデータベースで、最新のデータか判断できないものについては個別リストア対応で復旧
直近のダンプデータが取れないデータベースについては、過去に存在するダンプデータ(2019年6月)から復旧
過去に存在するダンプデータがない場合は、基本的に復旧が困難

 [対応]

障害時点(2019/10/28)のデータベースのバックアップデータからの復旧が可能になりましたが、
大変申し訳ございませんが、なお、データ異常が発生している場合、お客様のバックアップデータからの復旧をお願いいたします。(2019/11/07 03:00 時点)

・高負荷状態に伴う断続的な表示障害(全ユーザー)

RAIDシステムにおいて復元処理と新サーバーへのデータ移行処理で高負荷状態になっている 

https://twitter.com/monolithon_/status/1191851766842720258

https://twitter.com/Minato_GOZARU/status/1192154575333015552

直近のバックアップ(10/28 04:00)でデータ不整合がでているところに

直近(10/28 04:00)に復元とやってるあたりまだまだ影響は大きいと思われる。

 

サービス提供側も利用側も辛そうな案件である。

 

情報源: 一部サーバーで発生しました共有ストレージ障害の対応状況につきまして | お知らせ一覧 | レンタルサーバー CORESERVER(コアサーバー) – 30日間無料お試し