M.C.P.C. (Mamesibori Creation Plus Communication)

印刷屋から五反田のWeb屋に転職したCLのブログです。

高度すぎる「改定新版 サーバ/インフラエンジニア養成読本 管理/監視編」

「改定新版 サーバ/インフラエンジニア養成読本 管理/監視編」という書籍が出ていたので購入しました。

(書影が蛍光グリーンになっていて実物と違うのだけれどもよいのか)

それを読んでいたわけですけれども、書いていることが高度すぎて、僕らの現場には合わない気がする。

2つほど引用して、われらが現場では実際に何が起こっていたかということを書いてみます。

p.110

トラブル2 まったくWebサーバへ接続できなくなった


問題察知 WebサーバにHTTPで接続できないというアラートメールがNagiosから届きました。実際にWebサービスにアクセスしてみましたが、やはり接続できない状態になっていました。


原因1 ネットワークが疎通していない

原因2 負荷が高い

【本当の原因】OOM KillerがApacheを殺していた ついでにsshdも殺されていた(ついでってなんだよ)

「OOM Killerなんて起こさせるなよ」

ごもっとも。でもここの運用はWebARENA時代からWebにアクセスできなくなったらコンパネからOpenVZのコンテナを再起動するっていうことになっていたっぽい。入社してまず最初にやったのは、ApacheのMaxClientsの数を減らすってことでした。MaxClientsを減らすだけでサーバダウンを防げて英雄になれる職場がそこにはある。

p.113

トラブル3 Webサーバを再起動したら、Webサーバにアクセスできなくなった


問題察知 Webサーバをメンテナンスしたときにカーネルをアップデートし、Webサーバの再起動が必要なので再起動しました。ところが、再起動後、Webサーバに全くアクセスできなくなってしまいました。具体的には、HTTPやSSHでWebサーバへ接続できなくなってしまいました。


原因1 カーネルのアップデートによる不具合

原因2 ネットワークが疎通していない

【本当の原因】httpd.conf を修正し損じていて、文法エラーで起動しない(この場合SSHは通るな)

service configtest しろよ」

ごもっとも。でも、ここの運用ではhttpd.confの書き換えはWebminで行うんだ。おーいこんそーるにおりてこいよーこわくないよー

(WebminはApacheを使わず自力でHTTPサーバを演じているので、ブラウザでWebminにアクセスできてApacheがダメな場合「Apacheがお亡くなりになられている」とわかって便利ではある)

~~~

この現場はいろいろ闇が深い。だからおもしろい。でももうかんべんしてくれ。(人の回転率が良すぎて育つ前にいなくなる)

※フィクションです