【IT用語】ShiftとLiftの違いとインシデントコマンダーとは？

システム障害対応の教科書という書籍の中で「ShiftとLift」という用語が紹介されていたのでそこの抜粋と、同書で触れられているトラブル発生時に必要な役割である「インシデントコマンダー」のについても整理しました。

言葉の定義は以下。

オンプレミスのシステム構造のままIaaSを中心にクラウド化することをLift、その後クラウドネイティブを前提にしたアーキテクチャ変更を行うことをShiftと呼ぶ。

本来はShiftを実施すべきシステムが、Liftで止まったりそもそも塩漬けにされることでシステム障害が発生した際に有識者がいなくなってしまうという意見が述べられています。そして、Shiftまで進まない背景は以下で説明されていました。

確かにアプリケーションをコンテナ化することができれば、移行も用意になりますしいわゆるクラウドネイティブな設計に落とし込めます。
クラウドネイティブとは「迅速な変更が行える基盤、スケール化させやすい設計、頻発する障害を見越した回復力」を採用しているアーキテクチャのこと。

以下はShiftできないことで起きうる障害発生時のポイント部分で参考になった箇所。

作業者の上に立ち、お客様との窓口になる役割がインシデントコマンダー。同ポジションはトラブル発生時に作業者とは別に用意すべきポジションであると説明されています。

インシデントコマンダーに必要なスキルは以下

全体の方向性や透明性を確保するコミュニケーション能力（≠技術力）

インシデントコマンダーが報告を受ける際のポイントは以下。

この手の情報を正しく取り扱うのはPD思考として重要。

そして、インシデントコマンダーに報告する側も以下を意識するといいという話。

上記を聞いた上で、インシデントコマンダーは再現性と緊急性を確認していく流れになります。

本書では障害検知～原因調査～業務影響調査～復旧対応と章を分けて解説しています。
現場ごとにこの手のフローは整備されていますが、それを見直すうえでも参考になる書籍でした。

(O+P)ut