職場のサーバが

というわけで,飲み会から終電で帰宅したところに職場のサーバからメール.cron が実行できなかったという内容なのだが,何やらとんでもないことが起こってるようだ.一気に酔いが醒める.自宅から調べるうちに事態の深刻さがわかってくる.基幹サーバ類が軒並機能できてないのだ.NFS mount している /home やら /usr/local やらが見えない.メールは使えないしログインもままならない.



結局,始発で職場に行って再起動かけたりしても収まらず,そのうち sync できなくなったり fsck でエラーが頻発したり panic[cpu0] になったりして,泥沼状態.サーバ 3 台が相互に調子悪くなってるのでわけがわからん.ネットワーク障害かとも思ったが,パケット監視しても変な兆候はないし,ping は通る.これで油断してしまった.さらにサーバラックがなぜか移動してて,配線やスイッチを目視確認できなかったことが解決の遅れにつながった.



ていうか自分の脳内自体に fsck かけたほうがいいんじゃね? みたいな状態で,テンパった挙げ句,某所に支離滅裂なメールを送って「まあもちつけ」みたいなアドバイスをもらい (その節は失礼しました>大先生),多少落ち着いて事態を整理したりしたんだけど,このまま起き続けてるのはかえって危険な気がしたので,2 時間ほど仮眠.連続稼働時間 46 時間は個人記録です.たぶん.



月曜になって人が来たので手伝ってもらい,試行錯誤するうちにふとイーサネットスイッチを取り換えてみたら…解決した.orz.これだったのか…中途半端にネットワークがつながってるもんだから (TCP はだいたい通った),まさかネットワーク機器が落ちてるとは思わなかったんだよ….半日くらい死んだようになってますた.その後,事後処理に追われ,現在に至る.



ていうか,「ed をつかってみる」[2005-10-25] がこんなに早く役に立つ日がくるとは…あまり来てほしくなかった.
教訓:

  • ping が通ったからといって安心するな.ネットワークはまず疑ってかかれ.
  • 要素を (ハード的/ソフト的に) 切り離していって原因を locate する.
  • サービス再開よりユーザデータの保護を優先する.システムデータよりユーザデータを優先する.