OVH Community, your new community space.

Problem z dyskiem w serwerze


Spacedust
22-10-2012, 18:43
Cytat Napisał Widmo
Drobna konsternacja, w przykładzie podajesz:

hdparm --fwdownload GRCC4H2H.LOD

a w 'tabelce' po: ST2000DM001-9YN164 mam:

GRCC4H4H.LOD oraz GRCC4H6H.LOD

chyba, że ja czegos nie kumam
Faktycznie są dwa modele jeden ma 4 głowice, a drugi 6, więc tutaj jest trudniej.

Widmo
22-10-2012, 18:33
Drobna konsternacja, w przykładzie podajesz:

hdparm --fwdownload GRCC4H2H.LOD

a w 'tabelce' po: ST2000DM001-9YN164 mam:

GRCC4H4H.LOD oraz GRCC4H6H.LOD

chyba, że ja czegos nie kumam

Spacedust
22-10-2012, 10:31
Cytat Napisał Widmo
O! Dzieki, na to nie wpadłem...

Udało mi się co prawda poradzić na około i zmniejszyłem ilość RAMu z 12 GB na 4 GB + do sysctl dałem vm.dirty = 10

ale firmware w dysku też chyba by warto zaktualizować.

mała podpowiedź jak to zrobić najlepiej?
nie mam tam windowsa,
moge użyć bootable ISO, ( vkvm + iso mount? )
Użyj hdparm. vKVM ma wirtualny sprzęt.

Aby dostać plik firmware trzeba sobie rozpakować WinRAR'em plik ISO: http://www.seagate.com/staticfiles/s...ALL-GRCC4H.iso i zgrać na dysk plik GR-CC4H.ima

Plik ten należy otworzyć w WinImage i w nim po raz kolejny rozpakować plik lod.zip.

Trzeba zawsze koniecznie sprawdzić tabelę, który firmware jest do którego dysku: http://www.users.on.net/~fzabkar/HDD/GR-CC4H.TXT

Wystarczy wgrać odpowiedni firmware na serwer, a potem za pomocą hdparm (minimum w wersji 9.37) wydać polecenie flashowania:

hdparm --fwdownload GRCC4H2H.LOD --yes-i-know-what-i-am-doing --please-destroy-my-drive /dev/sda

Polecą sobie takie kropki, które się na chwilę zatrzymają, a potem będzie .... done.

I działa od razu co potwierdza smartctl

Sprawdzałem na Kimsufi 2G z ST1000DM003-9YN1 z CC4C na CC4H.

=== START OF INFORMATION SECTION ===
Device Model: ST1000DM003-9YN162
Firmware Version: CC4H

Widmo
22-10-2012, 09:32
O! Dzieki, na to nie wpadłem...

Udało mi się co prawda poradzić na około i zmniejszyłem ilość RAMu z 12 GB na 4 GB + do sysctl dałem vm.dirty = 10

ale firmware w dysku też chyba by warto zaktualizować.

mała podpowiedź jak to zrobić najlepiej?
nie mam tam windowsa,
moge użyć bootable ISO, ( vkvm + iso mount? )

Spacedust
19-10-2012, 22:38
Te dyski mają znane problemy, które można rozwiązać tylko poprzez aktualizację firmware: http://knowledge.seagate.com/article...S/FAQ/223651en

hdmagic
19-10-2012, 18:45
to wrzuc jeszcze
vmstat 3 30

Widmo
19-10-2012, 18:40
może, zeby nie bylo niescilosci, jeden dysk, na tym ESX 5.0, na tym virtualka.


Kod:
root@rescue:~# badblocks -v /dev/sda
Checking blocks 0 to 1953514583
Checking for bad blocks (read-only test): done
Pass completed, 0 bad blocks found.
Kod:
root@rescue:~# ./smart.sh

/dev/sda: Reallocated_Sector_Ct = 0
/dev/sda: Spin_Retry_Count = 0
/dev/sda: Reported_Uncorrect = 0
/dev/sda: Command_Timeout = 0
/dev/sda: Current_Pending_Sector = 0
/dev/sda: Offline_Uncorrectable = 0
/dev/sda: UDMA_CRC_Error_Count = 0
Kod:
root@rescue:~# smartctl -a /dev/sda
smartctl 5.40 2010-07-12 r3124 [i686-pc-linux-gnu] (local build)
Copyright (C) 2002-10 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF INFORMATION SECTION ===
Device Model:     ST2000DM001-9YN164
Serial Number:    S2401L8S
Firmware Version: CC46
User Capacity:    2,000,398,934,016 bytes
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   8
ATA Standard is:  ATA-8-ACS revision 4
Local Time is:    Fri Oct 19 17:42:05 2012 UTC
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x00) Offline data collection activity
                                        was never started.
                                        Auto Offline Data Collection: Disabled.
Self-test execution status:      (   0) The previous self-test routine completed
                                        without error or no self-test has ever
                                        been run.
Total time to complete Offline
data collection:                 ( 609) seconds.
Offline data collection
capabilities:                    (0x73) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        No Offline surface scan supported.
                                        Self-test supported.
                                        Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine
recommended polling time:        (   1) minutes.
Extended self-test routine
recommended polling time:        ( 255) minutes.
Conveyance self-test routine
recommended polling time:        (   2) minutes.
SCT capabilities:              (0x3085) SCT Status supported.

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   108   099   006    Pre-fail  Always       -       20549736
  3 Spin_Up_Time            0x0003   093   092   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       28
  5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   070   060   030    Pre-fail  Always       -       12011754
  9 Power_On_Hours          0x0032   093   093   000    Old_age   Always       -       6921
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       28
183 Runtime_Bad_Block       0x0032   100   100   000    Old_age   Always       -       0
184 End-to-End_Error        0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
188 Command_Timeout         0x0032   100   100   000    Old_age   Always       -       0
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   070   055   045    Old_age   Always       -       30 (Lifetime Min/Max 26/43)
191 G-Sense_Error_Rate      0x0032   100   100   000    Old_age   Always       -       0
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       27
193 Load_Cycle_Count        0x0032   100   100   000    Old_age   Always       -       79
194 Temperature_Celsius     0x0022   030   045   000    Old_age   Always       -       30 (0 14 0 0)
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
240 Head_Flying_Hours       0x0000   100   253   000    Old_age   Offline      -       270505630241725
241 Total_LBAs_Written      0x0000   100   253   000    Old_age   Offline      -       138685869005620
242 Total_LBAs_Read         0x0000   100   253   000    Old_age   Offline      -       281474976710655

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed without error       00%        11         -
# 2  Short offline       Completed without error       00%         1         -
# 3  Short offline       Completed without error       00%         1         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

any idea?

Spacedust
19-10-2012, 17:20
Pokaż nam ten SMART

hanjin
19-10-2012, 11:40
Mówisz, że SMART ok? Może przeleć dysk badblocks, żeby zobaczyć czy nie wywali jakiś sektorów.

Kod:
badblocks -v /dev/xxx

Widmo
19-10-2012, 11:19
backuppc, do backupowania.

działało rok ponad

hanjin
19-10-2012, 10:57
a co to jest BackupPC_trash, BackupPC_dump?

Widmo
19-10-2012, 10:55
Linux x.y.z 2.6.32-5-amd64 #1 SMP Sun Sep 23 10:07:46 UTC 2012 x86_64 GNU/Linux

doraźnie, masz napisane:
masz też napisane, że to "disables this message" a nie rozwiąże problem lokowania się na 120 sekund...

hanjin
19-10-2012, 10:43
Jaki system? Jaki kernel?

doraźnie, masz napisane:
Kod:
echo 0 > /proc/sys/kernel/hung_task_timeout_secs
„It's not a bug, it's a feature!”

Widmo
19-10-2012, 10:37
Witam,

rok czasu wszystko było ok, nagle serwer przymula, a dmesg sypie takim czymś:

Kod:
[11371.860524] INFO: task BackupPC_trashC:1662 blocked for more than 120 seconds.
[11371.860613] "echo 0 > /proc/sys/kernel/hung_task_timeout_secs" disables this message.
[11371.860707] BackupPC_tras D 0000000000000000     0  1662   1661 0x00000000
[11371.860709]  ffff8803be50b880 0000000000000086 0000000000000000 ffffffff81099fd6
[11371.860712]  0000000000000001 000000003572e49a 000000000000f9e0 ffff8803ba257fd8
[11371.860714]  0000000000015780 0000000000015780 ffff8803ba2caa60 ffff8803ba2cad58
[11371.860716] Call Trace:
[11371.860719]  [] ? delayacct_end+0x74/0x7f
[11371.860722]  [] ? __wait_on_bit+0x62/0x70
[11371.860726]  [] ? start_this_handle+0x321/0x3ec [jbd2]
[11371.860728]  [] ? autoremove_wake_function+0x0/0x2e
[11371.860731]  [] ? jbd2_journal_start+0x96/0xc6 [jbd2]
[11371.860738]  [] ? ext4_journal_start_sb+0xd4/0x10e [ext4]
[11371.860741]  [] ? inotify_d_instantiate+0x12/0x39
[11371.860744]  [] ? generic_permission+0xe/0x8a
[11371.860749]  [] ? ext4_unlink+0x58/0x1cd [ext4]
[11371.860752]  [] ? may_delete+0x45/0x112
[11371.860754]  [] ? vfs_unlink+0x72/0xa6
[11371.860756]  [] ? do_unlinkat+0xc2/0x149
[11371.860758]  [] ? mntput_no_expire+0x23/0xee
[11371.860760]  [] ? mntput_no_expire+0x23/0xee
[11371.860763]  [] ? sys_chdir+0x5a/0x64
[11371.860765]  [] ? system_call_fastpath+0x16/0x1b
[11371.860770] INFO: task BackupPC_dump:7830 blocked for more than 120 seconds.
[11371.860843] "echo 0 > /proc/sys/kernel/hung_task_timeout_secs" disables this message.
[11371.860937] BackupPC_dump D 0000000000000000     0  7830   1661 0x00000000
[11371.860939]  ffff8803be50b880 0000000000000082 0000000000000000 0000000000001000
[11371.860950]  ffff8802e515c1c0 ffffffff812fc630 000000000000f9e0 ffff8803bb84dfd8
[11371.860952]  0000000000015780 0000000000015780 ffff8803bb6fb880 ffff8803bb6fbb78
[11371.860954] Call Trace:
[11371.860957]  [] ? down_write+0x9/0x27
[11371.860959]  [] ? read_tsc+0xa/0x20
[11371.860962]  [] ? timekeeping_get_ns+0xe/0x2e
[11371.860964]  [] ? sync_buffer+0x0/0x40
[11371.860966]  [] ? io_schedule+0x73/0xb7
[11371.860969]  [] ? sync_buffer+0x3b/0x40
[11371.860971]  [] ? __wait_on_bit+0x41/0x70
[11371.860973]  [] ? sync_buffer+0x0/0x40
[11371.860975]  [] ? out_of_line_wait_on_bit+0x6b/0x77
[11371.860977]  [] ? wake_bit_function+0x0/0x23
[11371.860983]  [] ? ext4_bread+0x3d/0x5e [ext4]
[11371.860988]  [] ? htree_dirblock_to_tree+0x33/0x15d [ext4]
[11371.860991]  [] ? path_to_nameidata+0x15/0x37
[11371.860996]  [] ? ext4_htree_fill_tree+0x82/0x208 [ext4]
[11371.861001]  [] ? ext4_readdir+0x7d/0x543 [ext4]
[11371.861003]  [] ? filldir+0x0/0xb7
[11371.861008]  [] ? ext4_readdir+0x169/0x543 [ext4]
[11371.861010]  [] ? filldir+0x0/0xb7
[11371.861012]  [] ? cp_new_stat+0xe9/0xfc
[11371.861015]  [] ? filldir+0x0/0xb7
[11371.861017]  [] ? vfs_readdir+0x75/0xa7
[11371.861019]  [] ? sys_getdents+0x7a/0xc7
[11371.861021]  [] ? system_call_fastpath+0x16/0x1b
Sprawdzałem dwukrotnie w długich odstępach czasu SMARTA, wszystko jest ok, rebootowałem, zmieniałem kernel...

Czy ktoś ma jakiś pomysł?
Kabel SATA?