障害対応とデバッグ
本番環境での障害発生時、AIにログを分析させて迅速に原因を特定・解決します。
障害対応の流れ
1
検知 - アラート発生、ユーザー報告
2
情報収集 - ログ、メトリクス、エラー内容
3
AIに分析依頼 - 原因特定
4
対応・修正 - 緊急対応または根本解決
AIにログ分析を依頼
障害分析の依頼例
本番環境で500エラーが多発しています。 以下のログを分析して、原因と対策を教えてください。 【発生時刻】2024-01-15 14:30 JST から 【影響範囲】全ユーザーの約30% 【エラーログ】 ``` [ERROR] 2024-01-15 14:30:12 Connection pool exhausted [ERROR] 2024-01-15 14:30:13 TimeoutError: database connection [ERROR] 2024-01-15 14:30:15 Connection pool exhausted ``` 【直前の変更】 - 14:00 にデプロイ実施(新機能追加)
ポストモーテム作成
今回の障害についてポストモーテム(振り返り文書)を作成してください。 【フォーマット】 - 概要 - タイムライン - 根本原因 - 影響 - 対応内容 - 再発防止策
まとめ
- ✓情報を整理して渡す - 時刻、影響範囲、ログ
- ✓直前の変更を伝える - デプロイ、設定変更など
- ✓ポストモーテム - 再発防止のため振り返り