慘案發生..

跑 Raid 1 的 DB Server 昨天爆了..

先是傍晚的時候收到 pingdom 的警告信,說我的服務超過 5 分鐘沒回應,雖然擔心,但因為手邊還有很多事情在忙,等好等回家再檢查。

回家後發現不得了,原來在 17:32 的時候硬碟開始發生問題,然後到 17:53 的時候,Raid 1 其中一顆硬碟就完全離線了。

Apr 19 07:59:21 roga rsyslogd: [origin software="rsyslogd" swVersion="4.6.4" x-pid="1529" x-info="http://www.rsyslog.com"] rsyslogd was HUPed, type 'lightweight'.
Apr 19 17:32:50 roga kernel: [3363378.997370] ata7.00: configured for UDMA/133                                                                                                                                                                
Apr 19 17:32:50 roga kernel: [3363378.997381] ata7: EH complete
Apr 19 17:52:33 roga kernel: [3364562.781954] ata7: hard resetting link
Apr 19 17:52:43 roga kernel: [3364572.804525] ata7: hard resetting link
Apr 19 17:52:53 roga kernel: [3364582.836519] ata7: hard resetting link
Apr 19 17:53:04 roga kernel: [3364593.404015] ata7: link is slow to respond, please be patient (ready=0)
Apr 19 17:53:28 roga kernel: [3364617.868033] ata7: limiting SATA link speed to 1.5 Gbps
Apr 19 17:53:28 roga kernel: [3364617.868036] ata7: hard resetting link

現在看系統狀況是這樣,這組 Raid 1 只剩下另一顆硬碟在撐,不過我有不少重要的服務都跑在這上面,昨天緊急把備份的資料都先複製出來,等明天有空(週六)再來看問題到底出在哪裡…

root@roga:/home/roga # mdadm --detail /dev/md1
/dev/md1:
        Version : 1.2
  Creation Time : Fri Oct 14 11:58:20 2011
     Raid Level : raid1
     Array Size : 312567481 (298.09 GiB 320.07 GB)
  Used Dev Size : 312567481 (298.09 GiB 320.07 GB)
   Raid Devices : 2
  Total Devices : 1
    Persistence : Superblock is persistent

    Update Time : Fri Apr 20 11:00:10 2012
          State : active, degraded
 Active Devices : 1
Working Devices : 1
 Failed Devices : 0
  Spare Devices : 0

           Name : roga.tw:1  (local to host roga.tw)
           UUID : 193b7bf0:8f9e58d3:01d8f770:ab4c45f1
         Events : 141969

    Number   Major   Minor   RaidDevice State
       0       8       33        0      active sync   /dev/sdc1
       1       0        0        1      removed

唉 /dev/sdd 就這樣不見了,意味著又要花錢了。

這組 Raid 是在 2011/10 設好的,用了半年就掛一顆硬碟了 (運作狀況是 7x24x365) 。

Posted in computers
4 comments on “慘案發生..
  1. Picker says:

    Roga大大也是用soft raid囉?

  2. Picker says:

    最近我想把raid硬碟做備份, 但clonezilla似乎還不支援soft raid備份, Roga大對於mdadm的全硬碟備份有啥推薦的作法嗎?

    • roga says:

      Hi Picker 大大

      如果是 Raid 1 的話,把新硬碟加入你這組既有的 Raid ,等 sync 完畢之後再拔除,

      我想或許可以試試看,但是我沒有這樣嘗試過。

Leave a Reply

Your email address will not be published.