本番環境でやらかしちゃった人 Advent Calendar 2019 が面白そうな件

その他

こんにちは。

12月にはいり、Advent Calendar の季節ですね。

 

去年、一昨年と所属しているネクストスケープで、Advent Calendar をやっていたのですが、今年はやらないので若干のんびりとした年末を過ごしていますw(はやいかな。。)

 

そんで、今年の Advent Calendar を見ていて「本番環境でやらかしちゃった人 Advent Calendar 2019」にめっさ興味をもちました。長年 IT の世界でお仕事してれば、1つや2つのやらかし系はありますよねー。

本番環境でやらかしちゃった人のカレンダー | Advent Calendar 2019 - Qiita
本番環境でやらかしちゃった人のカレンダーページです。

自分も参加しようと思ったのですが、すでに満枠だったので、このブログで人知れず懺悔したいと思いますw

 

自分のやらかした話

自分はそこそこやらかし系なので、失敗談はそこそこあるかもしれません。

Plug & Play の検証で電源いれっぱで 400 万円もする機器の抜き差しをして壊しちゃったり(俺もやりたくなかったけど、抜き差ししないと試験できなかったんだよ。。火花がキレイに散りましたね~)、定期メンテナンスで運用させる予定のサーバをシャットダウンしちゃったり(人間は間違える動物です。)、Exchange サーバでバックプレッシャーで滞留してたメールを何も考えずに放流してしまったり(あるあるですよね~)

 

今回は、Citrix Presentation Server(CPS) を使って業務のほぼすべてを行っていたお客様の環境で、CPS サーバに接続できなくなってしまい、お客さんの業務を 3 日ほど止めてしまった時のお話です。

ちなみに、今回書くトラブルは、記事中に登場する製品たちの不具合ではなく、完全に自分のミスです。

 

CPS サーバとは

Citrix Presentation Server をご存知ない方に簡単に説明しますと、

今の製品名だと、「Citrix Virtual Apps and Desktops」に該当する製品だと思います。簡単に言っちゃうと、VDI の環境を提供してくれるサーバです。
(※若干意訳は入ってるけど。。)

Citrix DaaS Delivers Secure Virtual Apps and Desktops to Any Device - Citrix
Citrix DaaS modernizes IT with a secure, easy-to-manage cloud solution to quickly deliver apps or desktops from any clou...

 

VDI のように、CPS 上に業務処理を行うアプリケーションがインストールされていて、クライアントからはそのサーバ上のアプリにアクセスすることで、クライアント PC を軽くしていて、拠点で何かトラブルがあった場合は本社から代替え機を送って PC を入れ替えて運用する、そんな感じのシンクライアント環境を構築した案件だったんですね。

まぁー当時はそれなりに先進的な感じではあった気もするんだけど。

 

つまりは、CPS サーバにアクセスできないってことは、業務が何もできないに等価の環境だったんですよ。

 

そして事件が起きた

あさ会社に出社して、朝の正常動作の確認もして特に問題が起きてない感じだったと思います。

 

んで、数分後に、お客さんから「CSPサーバにつながらない」って連絡が来ました。

「えー、朝からまじ?」って思いながら接続確認すると、確かにつながらない。

 

リモートデスクトップで 自分が接続できなかった CSP サーバにつなげてみてもなんとなくスローダウンしてる。

ちなみに、その CSP サーバは、セキュリティプロダクトを新たに導入などにより、常時リソースが枯渇気味にはなっていて、トラブルが起きるのも日常的になってはいるものの、6台のサーバで構成されていたので全停止は起きてない状態で、その前日にもウイルス対策ソフトのパターンファイルが自動で update ができない事象が頻発してたので、その調査対応をしていました。

 

トラブルの原因

トラブルの原因は、前日に行ったウイルス対策ソフトのパターンファイルが自動で update できない事象の調査対応作業にありました。

 

当時、自分はそのウイルス対策ソフトについてはかなり詳しく、自分的にも自信をもって扱える製品でした。

過去の実績から、一度、手動で update することでほぼ解決できる問題だと知ってたんですよねー。

 

ただ、そのお客さんの環境では、ウイルス対策ソフトの導入ベンダーが自社の別部門であり、自分で手を出せる状況になかったんです。

で、1月位メールでやり取りして、ひとまずログの収集をしたいっていうのと、試しに手動 update を試してみたいって言わせることに成功して、やっと話が進む~って思った作業の日だったんです。

 

そんで、手動 update の作業に入るときに、「あれ?思ってたバージョンと違う。手順書と違うから、別日に試します。」とかになったんですよ。

って、手動 update するのに、大きな違いないから、さっさとやれよって感じで。。。

 

そんなわけで、自分がチャチャっと手動 update をやっちゃったんですね~。

イライラしながらやったんで、検索エンジンの update にチェックがデフォで入っててそれを外すのを忘れちゃったんです。

検索エンジンを update すると、リソースの使われ方が変わって、ただでさえリソースが枯渇気味のサーバなので、一度検証環境に同じ環境を作って Update の検証しないと危険だって思って、温めてたんですけどね。。。

 

結局、検証をしないといけないと踏んでいたことが大当たりで、最終的には検索エンジンを手で元のバージョンに戻しましたよw

 

教訓

  • 本番環境をいじってるときはイライラしないw

 

まとめ

人は冷静な判断ができないときに、ミスをするもんです。

イライラしない人間になることは僕にはできないので、イライラしてるときは本番環境をいじるのを一度休憩したいと思いますw

 

そして、自分のミスで 3 日間も業務システムへのアクセスをできない状態にしてしまったお客様には、今でも申し訳なく思ってます。

自分自身も気を付けたいと思いますし、自分のチームのみんなと力を合わせて、みんなでフォローしあって、同様のトラブルによる影響を小さくできればなって思っています。

コメント

タイトルとURLをコピーしました