Why
組織的なインシデント対応を実現できるかどうかは、インシデントに慣れていないメンバーを巻き込むことができるかどうかが重要である。
教育やトレーニングの仕組みがない場合、インシデント対応スキルは復旧対応の経験量に比例して積み上がる。組織内の多くのメンバーが経験を積むことができれば問題ないが、実際の復旧対応の現場では迅速な復旧を最優先する影響で、対応慣れした特定のメンバーが何度も繰り返し復旧を行うことが多い。結果として、インシデント対応に慣れていないメンバーと対応慣れしたメンバーの対応力の差は広がり続ける構造に陥ってしまい、属人化が加速する。
インシデント対応ができるメンバーを一人でも多く増やす手段の一つとして、インシデント対応訓練の導入が挙げられる。実際、Datadog社では半年に一度インシデント対応を行う習慣がある。
refs: https://www.datadoghq.com/ja/blog/engineering/2023-03-08-deep-dive-into-incident-response/
Because we (like our customers) have high expectations for availability, we have a relatively low threshold for declaring incidents. A secondary effect of this is that we regularly undergo our incident management process, which helps keep our engineers up to date on tooling and incident response. We also require all engineers to complete comprehensive training before going on call and a refresher training session every six months.
しかし、インシデント対応訓練の仕組みを構築するには、専門性の習得と多くのエンジニアリングリソースの確保が必要であるため用意ではない。
そのため、手軽にインシデント対応プロセスを体験することができる訓練の仕組みがほしい。また、訓練を通してインシデント対応のベストプラクティスが学べることが理想である。
What
WHYに記載した背景や意図を加味し、以下を満たすような対応ゲームをWaroom上に実装する。
- 準備が楽
- 起票からクローズまでの対応プロセスを体験できる
- インシデントレスポンスの学びが得られる
- 訓練内容が実践的である
- 顧客が設問をカスタマイズできる
- 複数人でゲームができる
- ex. インシデントコマンダーとレスポンダーがプレイできる
なお、このゲームは実際の障害対応時の状況に近づけるためにSlack上で遊べる仕様とする。