高度すぎる「改定新版 サーバ/インフラエンジニア養成読本 管理/監視編」
「改定新版 サーバ/インフラエンジニア養成読本 管理/監視編」という書籍が出ていたので購入しました。
【改訂新版】 サーバ/インフラエンジニア養成読本 管理/監視編 [24時間365日稼働を支える知恵と知識が満載!] (Software Design plus)
- 作者: 養成読本編集部
- 出版社/メーカー: 技術評論社
- 発売日: 2014/04/11
- メディア: 大型本
- この商品を含むブログを見る
それを読んでいたわけですけれども、書いていることが高度すぎて、僕らの現場には合わない気がする。
2つほど引用して、われらが現場では実際に何が起こっていたかということを書いてみます。
p.110
トラブル2 まったくWebサーバへ接続できなくなった
問題察知 WebサーバにHTTPで接続できないというアラートメールがNagiosから届きました。実際にWebサービスにアクセスしてみましたが、やはり接続できない状態になっていました。
原因1 ネットワークが疎通していない
原因2 負荷が高い
【本当の原因】OOM KillerがApacheを殺していた ついでにsshdも殺されていた(ついでってなんだよ)
「OOM Killerなんて起こさせるなよ」
ごもっとも。でもここの運用はWebARENA時代からWebにアクセスできなくなったらコンパネからOpenVZのコンテナを再起動するっていうことになっていたっぽい。入社してまず最初にやったのは、ApacheのMaxClientsの数を減らすってことでした。MaxClientsを減らすだけでサーバダウンを防げて英雄になれる職場がそこにはある。
p.113
トラブル3 Webサーバを再起動したら、Webサーバにアクセスできなくなった
問題察知 Webサーバをメンテナンスしたときにカーネルをアップデートし、Webサーバの再起動が必要なので再起動しました。ところが、再起動後、Webサーバに全くアクセスできなくなってしまいました。具体的には、HTTPやSSHでWebサーバへ接続できなくなってしまいました。
原因1 カーネルのアップデートによる不具合
原因2 ネットワークが疎通していない
【本当の原因】httpd.conf を修正し損じていて、文法エラーで起動しない(この場合SSHは通るな)
「service configtest
しろよ」
ごもっとも。でも、ここの運用ではhttpd.confの書き換えはWebmin
で行うんだ。おーいこんそーるにおりてこいよーこわくないよー
(WebminはApacheを使わず自力でHTTPサーバを演じているので、ブラウザでWebminにアクセスできてApacheがダメな場合「Apacheがお亡くなりになられている」とわかって便利ではある)
~~~
この現場はいろいろ闇が深い。だからおもしろい。でももうかんべんしてくれ。(人の回転率が良すぎて育つ前にいなくなる)
※フィクションです