宣伝
この記事は #インフラ勉強会 Advent Calendar 12日目の記事です
adventar.org
はじめに
何を書くか悩んだのですが、こういう場ですのでネットには転がっていない実体験をベースにした話にします。
他のインフラエンジニアがどんな業務をしているのかな〜という程度でご覧ください。
オペレータの省力化プロジェクト
実施しようとしているゴールは以下のようなものとなります。
図はIBMのAutomation ServicesのRedbookから抜粋しました。
( http://www.redbooks.ibm.com/redpapers/pdfs/redp5363.pdf より図を抜粋 )
右側にサービス提供しているサーバ群があり、サーバ群に何かあればアラートがあがる構成です。
そのアラートに対してロボットがJumphostという中継サーバを経由してコマンドを発行したり、人間のSEにエスカレーションを行います。
オペレータの省力化といいながら、この図にはオペレータが一人もいませんね...
さて、ゴールは分かりましたがスタートはどのような体制でしょうか。
現在の現場では以下のような体制です。
かなりすっきりした体制です。
右側には同じくサービス提供しているサーバ群があり、そこから上がるアラートをオペレータ(operator)がチェックしています。
上がってきたアラートの内容を確認し、事前に用意された対応表をベースに対応していきます。
例えば、サーバに対してコマンド発行を行ったり、担当SEに連絡を行ったり、といった具合です。
自動化して何が嬉しいの?
例えば、同時に複数のアラートが発生したりするとオペレータは順々に対応していく必要があります。
熟練のオペレータであれば複数のアラートの中から重要なものを先に実施していくことも可能ですが、やはり人が行う以上は時間がかかってしまいます。
それをロボットであれば即座にさばくことが可能です。
ヒューマンエラーも起こりません。
では、何が難しいでしょうか。
何が難しいの?
手順書をロボットは読めない
オペレータが参照する手順書はExcelベースで書かれている現場が多いと思います。
それをロボットが読み込める形式に変換するのに多大な労力が必要です。
もちろんロボットは行間なんて読んでくれないので、プログラミングのように明示的に指示する必要があります。
運用にのっているサーバに手が入る
既にサービスを提供しているサーバを対象にする場合、例えばロボットからコマンドを発行するための新しいユーザを既存サーバ上に作成したりする必要があります。
終わりに
大変そうなプロジェクトに聞こえたかもしれませんが、ある程度パッケージングされたものを適用していく方針なので実績もあります。
ちなみに私は本プロジェクトでは全体を見ながらも主に最初の図の中継サーバを担当しています。
もし、クールなアラート対応の現場で運用をしているインフラエンジニアの方がいればお知らせください。
お話聞きたいです。
以上、突撃!隣のインフラエンジニアでした。