DELL PowerEdge 800 + Windows Server 2003 で原因不明のフリーズ

DELL PowerEdge 800 + Windows Server 2003 で一週間ほど前から原因不明のフリーズ

  • メモリ使用量やCPU負荷、HDD使用量を1分おきに記録して、履歴をブラウザから閲覧できるようにしていたので、いつ止まったかはわかる
  • 起動時に F10を押して、チェックするもチェックにはひっかからず
  • イベントビューアには、停止時刻に何も記録されていない
  • 電源ランプがブルーの時もあれば、オレンジ(橙?黄色?)の点滅の時もある
    (前面パネルは閉めておかないと、オレンジの点滅になる?)
  • 再起動から2時間程度の時もあれば、28時間経過しての時もある
  • フリーズ時に ping が通らない事がほとんどだが、通った事も一度あった

対応経過
  1. 全域へのウィルスチェック
  2. 本体を開けたついでに掃除
  3. 内蔵バスのボードを全て取り外して再起動 → 2時間ほどでフリーズ → 元に戻す
  4. CD-ROM, FDD のケーブルを取り外して再起動 → 2時間ほどでフリーズ → 元に戻す
  5. 外付けUSBのモデムを取り外して再起動(この時、USBのマウスを取り付けていた) → 28時間ほどでフリーズ → 変化があったのでUSBモデムは取り外したまま
  6. USB繋がりで、USBマウスを外して、USB端子には何も繋いでいない状態(キーボードはPS2)
  7. 一日安定していたので、忘れて、USBへプリンタを繋ぐ → 2分ほどでフリーズ
    イベントビューアには、USBへのプリンタ接続(正常)が最後に記録されている
  8. USB機器をを全て取り外して様子見
  9. 安定しているので、オンボードのUSBがNGなのか?
  10. PCIバスへ後付けUSBボード + USB機器を接続して様子見 + PS2マウス接続 → 2日程度でフリーズ
  11. Windows Update(2012/4/12)で、複数のアップデートをついでに当てる(この辺りもあやしいなぁ)
  12. 再度、USB機器を全て取り外し + PS2マウス非接続で様子見
    (PS2マウスは、内部でUSBエミュレートの可能性ありだった...)
  13. 30時間ほどでフリーズ
    フリーズ時にネットワークから変なパケットが連続して出ているみたい
    こんどはNICを疑ってみるが、これまでスイッチとか見てなかったゼョ (ァハハ
  14. オンボードのNICをDisableして、近くに転がっていたNICを装着して起動
    PCIバスが足りない・モデムを取り外して代替えのあるFAXサーバを停止
  15. 上記状態で、48時間以上経過したため、USB機器を接続しつつ新しいNICを注文
  16. NIC交換後も、フリーズ(何だったんだ)...
  17. なんか、停止までの時間が短くなってるんだが、そろそろ降参か
  18. 最後の手当、RAIDコントローラを外して、HDD単体で起動中(ディスクが減って静かだ)
  19. 手を尽くしたが、降参・バックアップデータからVPSへ移行決定
  20. データ取得のため起動するも、直ぐにフリーズする状態
  21. 再起動のついでに BIOSで IDEコントローラを Disabled にする → やはりだめ
  22. 再起動中、OSが起動する前に症状を確認できたので、完全に降参
  23. クラウドへデータを移し、プログラムを刷新することに決定

コメント