第6部:AIとDevOps Step 22 / 36

障害対応とデバッグ

本番環境での障害発生時、AIにログを分析させて迅速に原因を特定・解決します。

障害対応の流れ

1 検知 - アラート発生、ユーザー報告
2 情報収集 - ログ、メトリクス、エラー内容
3 AIに分析依頼 - 原因特定
4 対応・修正 - 緊急対応または根本解決

AIにログ分析を依頼

障害分析の依頼例

本番環境で500エラーが多発しています。
以下のログを分析して、原因と対策を教えてください。

【発生時刻】2024-01-15 14:30 JST から
【影響範囲】全ユーザーの約30%
【エラーログ】
```
[ERROR] 2024-01-15 14:30:12 Connection pool exhausted
[ERROR] 2024-01-15 14:30:13 TimeoutError: database connection
[ERROR] 2024-01-15 14:30:15 Connection pool exhausted
```

【直前の変更】
- 14:00 にデプロイ実施(新機能追加)

ポストモーテム作成

今回の障害についてポストモーテム(振り返り文書)を作成してください。

【フォーマット】
- 概要
- タイムライン
- 根本原因
- 影響
- 対応内容
- 再発防止策

まとめ

  • 情報を整理して渡す - 時刻、影響範囲、ログ
  • 直前の変更を伝える - デプロイ、設定変更など
  • ポストモーテム - 再発防止のため振り返り
インフラ設定の自動化 次へ:MCP入門