障害対応のふりかえりとその後の取り組み
こんにちは、那須です。 システム運用していると必ずついてまわるのが障害対応ですね。 障害発生した時にどう対応するか、その後再発させないためにはどうすればいいか、などをこれを読まれている運用担当の方は常に考えられていると思います。 私たちも同じで、onedog のサービスを利用して得られる価値をユーザのみなさまに継続的に届けられるように運用しています、、と思い込んでいました。
少し前になりますが、2021/2/6(土) と 7(日) のそれぞれ夕方に onedog のサービス提供ができなくなる障害が発生しました。 今思い返してみると、2 月時点ではインフラ観点でみるとあまりいい運用ができていなかったと思います。 その時の障害対応の振り返りだと思って、障害原因の確認と復旧対応、そしてその後の同じ障害を再発させないための取り組みについて公開することにしました。 まだまだ完全な形には程遠いですが、少しずつ運用の姿を進化させていきたいと思っています。
↓note に書いてますので、よかったらご覧ください!