1. 概要
2024年10月17日に実施されたデータセンター(DC)移行作業に伴い、複数のシステム障害が発生しました。本障害により多大なるご迷惑をお掛けしましたことを深くお詫び申し上げます。
本報告書では、発生した障害の詳細、対応状況、および再発防止策についてまとめています。
なお、本報告書のPDFはページ最下部からダウンロードいただけます。
1.1 影響範囲の概要
- 発生期間:2024年10月17日 18:02頃 ~ 2024年10月24日 16:13頃
- 影響システム:すべてのビデオグサービス
- 影響ユーザー:すべてのユーザー
2. 障害事象詳細
2.1 録画配信障害
- 発生時間:2024年10月17日 18:17頃
- 復旧時間:2024年10月17日 19:35頃
- 影響範囲:2024年7月23日 20:00 ~ 2024年10月17日 18:00にビデオグに登録した録画ファイル
- 原因:動画保存サーバーの参照設定誤り
- 解決策:サーバー参照設定の修正
- 対応経過:
- 10/17 18:02頃:メンテナンス開始
- 10/17 18:17頃:録画配信に関わるメンテナンス作業を実施
- 10/17 19:18頃:障害発生を確認
- 10/17 19:25頃:原因を特定
- 10/17 19:31頃:対策を実施
- 10/17 19:35頃:社内テストにて障害解消を確認
- 10/17 19:41頃以降:障害解消の報告を順次開始
2.2 API応答異常
- 発生時間:2024年10月17日 21:00頃
- 復旧時間:2024年10月18日 13:24頃
- 影響範囲:全APIサービス
- 原因:レスポンスヘッダーへのBOM付加によるパース失敗
- 解決策:APIサーバーのレスポンスヘッダーからBOMを除外
- 対応経過:
- 10/17 18:02頃:メンテナンス開始
- 10/17 21:00頃:API応答に関わるメンテナンス作業を実施
- 10/18 09:23頃:障害発生を確認
- 10/18 11:12頃:原因を特定
- 10/18 13:23頃:対策を実施
- 10/18 13:24頃:社内テストにて障害解消を確認
- 10/18 14:21頃以降:障害解消の報告を順次開始
2.3 動画アップロード障害
- 発生時間:2024年10月17日 21:00頃
- 復旧時間:2024年10月30日 15:00頃
- 影響機能:
- wmv/flvファイルのアップロード
- 管理画面での動画一覧表示
- 原因:データ保存形式の不整合
- 解決策:
- データ変換処理の実装
- 不要なデータの削除
- 対応経過:
- 10/17 18:02頃:メンテナンス開始
- 10/17 21:00頃:動画のアップロードに関わるメンテナンス作業を実施
- 10/18 09:06頃:障害発生を確認
- 10/18 12:01頃:障害における原因を特定
- 10/22 18:29頃:「wmv/flvファイルのアップロード」障害における対策を実施
- 10/24 16:11頃:社内テストにて障害解消を確認
- 10/30 15:00頃:「管理画面での動画一覧表示」障害における対策を実施
2.4 PHPバージョン関連障害
- 発生時間:2024年10月17日 21:00頃
- 復旧時間:2024年10月21日 14:10頃
- 影響機能:
- 録画動画のプライバシー設定
- プレイヤーの字幕表示
- ライブ配信自動録画
- 新規会員登録
- ユーザーIDの変更
- ホームページデザインの変更
- 原因:DC移行後のシステムが旧DCのサーバーを参照
- 解決策:PHPバージョンを移行前の安定版に復旧
- 対応経過:
- 10/17 18:02頃:メンテナンス開始
- 10/17 21:00頃:PHPバージョンに関わるメンテナンス作業を実施
- 10/17 22:00頃:「新規会員登録」「ユーザーIDの変更」「ホームページデザインの変更」の障害発生を確認
- 10/18 10:10頃:「プライバシー設定」の障害発生を確認
- 10/18 10:54頃:「字幕」の障害発生を確認
- 10/18 16:13頃:「ライブ配信自動録画」の障害発生を確認
- 10/18 17:22頃:「ライブ配信自動録画」の不具合の原因を特定し、対策を実施
- 10/18 19:45頃:根本的な原因を特定し、暫定対処としてPHPバージョンを移行前の状態へ戻す処理を実施
- 10/21 13:56頃:10/18 17:22に対応した対策を元に戻す処理を実施
- 10/21 14:10頃:社内テストにて各障害の解消を確認
- 10/21 14:15頃以降:障害解消の報告を順次開始
2.5 認証システム遅延
- 発生時間:2024年10月17日 21:00頃
- 復旧時間:2024年10月24日 16:11頃
- 影響機能:IDパスワード認証のログイン処理
- 原因:DC移行後のプログラム互換性問題
- 解決策:不要処理の除外による最適化
- 対応経過:
- 10/17 18:02頃:メンテナンス開始
- 10/17 21:00頃:IDパスワード認証のログインシステムに関わるメンテナンス作業を実施
- 10/18 12:58頃:「IDパスワード認証におけるログイン」の障害発生を確認
- 10/24 08:58頃:「IDパスワード認証におけるログイン」障害における原因を特定
- 10/24 10:59頃:対策を実施
- 10/24 16:11頃:社内テストにて障害解消を確認
- 10/24 16:13頃以降:障害解消の報告を順次開始
2.6 スケジュール処理関連障害
- 発生時間:2024年10月17日 21:00頃
- 復旧時間:2024年11月01日 00:05頃
- 影響機能:
- 無料プラン移行・退会処理
- 原因:DC移行後のプログラム互換性問題
- 解決策:対象システムのバージョンをアップデートし、互換性の問題を解消
- 対応経過:
- 10/17 18:02頃:メンテナンス開始
- 10/17 21:00頃:Webサーバーに関わるメンテナンス作業を実施
- 10/17 22:00頃:「無料プラン移行・退会処理」の障害発生を確認
- 10/24 17:04頃:原因を特定
- 11/01 00:01頃:対策を実施
- 11/01 10:00頃:社内テストにて各障害の解消を確認
- 10/01 10:05頃以降:障害解消の報告を順次開始
2.6 CDN流量解析関連障害
- 発生時間:2024年10月17日 18:02頃
- 復旧時間:2024年11月05日 20:50頃
- 影響機能:
- CDN流量解析
- 原因:CDN流量解析サーバーの参照設定誤り
- 解決策:サーバー参照設定の修正
- 対応経過:
- 10/17 18:02頃:メンテナンス開始、CDN流量計測に関わるメンテナンス作業を実施
- 11/05 10:27頃:「CDN流量解析」の障害発生を確認
- 11/05 14:57頃:原因を特定
- 11/05 20:50頃:対策を実施、社内テストにて各障害の解消を確認
- 11/06 9:04頃以降:障害解消の報告を順次開始
3. 再発防止策
3.1 システム環境管理の強化
- 移行前後の互換性検証プロセスの確立
- アプリケーション依存関係の定期的な見直し
- システム設定の変更管理プロセスの強化
3.2 移行プロセスの改善
- 詳細な移行手順書の整備と定期的な更新
- ロールバック手順の文書化と訓練実施
- 段階的な移行プロセスの導入
3.3 モニタリング体制の強化
- システムログ監視の自動化推進
- アラート閾値の最適化
- インシデント検知時の即時対応体制の整備
3.4 品質管理の強化
- テスト環境での事前検証項目の拡充
- 変更影響範囲の評価プロセス改善
- 定期的な品質メトリクスの測定と評価
4. まとめ
本障害は、データセンター移行作業に伴う複数の技術的問題が重なって発生しました。各障害に対して適切な対策を実施し、現時点ですべての問題が解決されたことを確認しています。
今後は、再発防止策として示した各施策を確実に実施し、システムの安定性向上に努めてまいります。
また、本障害によりご迷惑をおかけしたユーザー様には深くお詫び申し上げます。今後このような事態を起こすことのないよう、システム運用体制の改善を進めてまいります。
報告書作成日:2024年11月8日
ロジックデザイン株式会社