We are in the process of migrating this forum. A new space will be available soon. We are sorry for the inconvenience.

Smart - smartctl_exit_status


borec
03-07-2014, 07:59
Tak, myślę, że przy 100 000 TB które dysk przemieli w czasie swojego życia te 2 TB to mały pikuś. Po to dysk jest, żeby mielić dane, a nie leżeć na półce nie ruszany żeby czasem się nie zepsuł, a jeśli się*wysypie w trakcie synchronizacji to tylko lepiej, że od razu wyjdzie że już jest zmęczony.

OVH już*od jakiegoś czasu wymienia zawsze na nowe dyski, gdyby je zerowali z badblokami to miałyś w smarcie Reallocated Sectors, a nie masz, i Power On Hours masz zero. Nowe superpojemne dyski mają*coraz mniejszą wytrzymałość, też mam dyski 80-100GB które od 10 lat z kilkoma wyzerowanymi badblokami działąją sobie do dzisiaj, ale to co teraz pakują*do serwerów pada jak muchy. W większości to są problemy firmwaru a nie mechaniki, poczytaj o różnicach w wersjach dysków desktopowych i serwerowych, różnią się*praktycznie tylko firmwarem.

Dyski muszą szybko padać*bo fabryki na Filipinach muszą coś*produkować. Wymieniam w OVH co najmniej jeden dysk tygodniowo, więc wiem co mówię.

victor
02-07-2014, 17:33
Cytat Napisał borec
Co Ty za bzdury wypisujesz, nie opłaca się*synchronizować*bo odczyt zwiększa ryzyko awarii drugiego dysku?! To w ogóle nie używaj dysków, w końcu ich używanie zwiększa ryzyko awarii

Bez sensu to jest naprawianie badblocków bo zaraz pojawią*się następne, lepiej od razu dysk wymienić, zsynchronizować i zapomnieć. Ale widzę, że niektórzy wolą się bawić.
A co, myślisz że odczytanie 2TB danych z dysku w pocie czoła przy licznych innych zapisach i odczytach nie powoduje większego zużycia? Problem z mechanizmem głowicy własnie pokaze się w takich chwilach jeśli ma się pokazać. Raz to przerobiłem.

Dysk, który dostaniesz też mógł mieć badblocki. Ovh nawet tego nie weryfikuje, nie wie bo najpierw czyszczą dysk, a przy tym badblocki znikają lub są realokowane.
Nie, badblocki nie pojawiają sie zaraz ponownie w przypadku gdy to była hipochondria dysku (95% przypadków wg. mnie). Używam wielu dysków, które lata temu miały może 1-2 wykryte i od tej pory cisza. Widzę że niektórzy lubią sie bawić i ryzykować przy każdym kichnięciu dysku.

borec
28-06-2014, 10:03
Co Ty za bzdury wypisujesz, nie opłaca się*synchronizować*bo odczyt zwiększa ryzyko awarii drugiego dysku?! To w ogóle nie używaj dysków, w końcu ich używanie zwiększa ryzyko awarii

Bez sensu to jest naprawianie badblocków bo zaraz pojawią*się następne, lepiej od razu dysk wymienić, zsynchronizować i zapomnieć. Ale widzę, że niektórzy wolą się bawić.

victor
27-06-2014, 17:45
Cytat Napisał borec
Nie skopiujesz wybranych sektorów z drugiego dysku, albo inaczej, nie ma to sensu. W soft raid 1 dyski nie są swoją idealną kopią, więc pewnie skopiujesz coś*zupełnie innego. Nadpisz zerami, jak się*naprawi to zsynchronizuj raid.
różnią się tylko superblokiem macierzy, który jest maleńki, łatwy do zidentyfikowania, ma wiele kopii na całym dysku i tam nigdy praktycznie dyszczek nie widzi badblocków bo nigdy tam nie zapisuje.
To jest bez sensu że trzeba zdesynchonizować całą macierz by jakiś jeden bloczek nadpisać. Zwiększa to znacznie ryzyko (że padnie drugi dysk podczas dużej ilości odczytów), zwiększa zużycie obu dysków, zwiększa czas interwencji i na długo zwiększa obciązenie na serwerze. To dopiero jest bez sensu.
Dodatkowo gdyby badblock był w superbloku macierzy, tak jak sugerujesz że może się zdarzyć, to synchronizacja raida by go nie nadpisała
Gdyby chociaż mdadm miał możliwość wymyszenia re-synchronizacji bez wcześniejszego wyjęcia dysku z macierzy, ze wkazaniem dysku źródłowego.
Gdyby chociaż mdadm mial możliwość synchronizacji raid1 z wskazanego dysku bez zapisywania na drugi dysk wszystkiego oprócz wyłącznie różniącym się bloków.

Cytat Napisał desavil
. Za małe wartości, nie chcą wymienić dysku.
to zrób większe - da się softowo zrobić badblocki Oni po wymianie i tak wrzucą dysk do urządzenia zapisującego, wymazującego dysk i badblocki znikną.

borec
27-06-2014, 07:56
Nie skopiujesz wybranych sektorów z drugiego dysku, albo inaczej, nie ma to sensu. W soft raid 1 dyski nie są swoją idealną kopią, więc pewnie skopiujesz coś*zupełnie innego. Nadpisz zerami, jak się*naprawi to zsynchronizuj raid.

victor
27-06-2014, 00:19
Cytat Napisał borec
Nie wymieniam jak mam 1 badsector, tylko robię dodatkowe testy, nadpisuję badsectory i jak to nie pomoże wymieniam. Ale w 99% przypadków nie jest to jeden tylko za chwile dziesiątki badów i problemów z odczytem lub wydajnością.
WIęc znasz jakisz sposób na nadpisanie (tylko) badsectorów danymi z drugiego dysku w raid1?
U mnie w 99% przypadków są badsectory, a po zapisie dyski zmieniają zdanie i badsectorów nie ma, ani realokowanych nie ma, a dyski działają jeszcze latami.

borec
26-06-2014, 08:43
Nie wymieniam jak mam 1 badsector, tylko robię dodatkowe testy, nadpisuję badsectory i jak to nie pomoże wymieniam. Ale w 99% przypadków nie jest to jeden tylko za chwile dziesiątki badów i problemów z odczytem lub wydajnością.

victor
26-06-2014, 07:10
Cytat Napisał borec
# 1 Extended offline Completed: read failure 90% 3600 387217
# 2 Short offline Completed: read failure 60% 3600 387217

Masz Offline_Uncorrectable i Current_Pending_Sector niezerowe, dysk do wymiany. Uzyj następnym razem smartcheck.sh.
Zmieniasz dyski za każdym razem jak dyszczek arbitralnie zdecyduje że ma badsector? Musisz mieć dużo tych zmian a co za tym idzie masz ciągle duże ryzyko że wymienią nie ten dysk, popsują coś innego przy okazji albo padnie drugi nim się pierwszy zsynchronizuje - no i siedzieć po nocach i wkurzać się ze nie wymieniają a czas płynie. Ja wymuszam zapis na dysk z badsectorami wyjmując i wkłądając ten dysk z macierzy raid1 na chwilę (co realokuje badsectory, ale czesciej po prostu dyszczek-pyszczek arbitralnie zmienia zdanie i nie ma zadnych realokowanych - kto mu zabroni) Przydał by się sposób na skopiowanie tylko wskazanych sektorów - ale to mi nie wyszło nigdy przez dd. Ktoś zna jakiś sposób na to? Da sie zapisać zera do sektora przez hdparm i to pomaga, tyle ze hdparm nie przyjmuje danych do zapisu innych niz zera

no4b
23-06-2014, 23:35
smartctl a nie sysctl

desavil
23-06-2014, 10:21
Cytat Napisał borec
Masz Offline_Uncorrectable i Current_Pending_Sector niezerowe, dysk do wymiany. Uzyj następnym razem smartcheck.sh.
To, wiem. Ale myślałem że niema to nic wspólnego z smartctl_exit_status. Za małe wartości, nie chcą wymienić dysku.

borec
23-06-2014, 09:12
# 1 Extended offline Completed: read failure 90% 3600 387217
# 2 Short offline Completed: read failure 60% 3600 387217

Masz Offline_Uncorrectable i Current_Pending_Sector niezerowe, dysk do wymiany. Uzyj następnym razem smartcheck.sh.

desavil
22-06-2014, 13:23
Hmm, za dużo mi to niestety nie mówi. :/
http://man.cx/sysctl(2)/pl#heading5

no4b
22-06-2014, 11:17
Przeczytaj sekcję RETURN VALUES w man startctl.

desavil
21-06-2014, 23:15
Witam,

W systemie monitoringu munin na jednym z dysków twardych (sda) pokazuje mi warning dotyczący wartości "smartctl_exit_status" jest ona równa 128, nie wiem na co to może wpływać, czy dysk może ulec w najbliższym czasie uszkodzeniu? Dodam, że drugi dysk (sdb) ma wartość 0 przy tym parametrze.

Smart tego dysku:
Kod:
=== START OF INFORMATION SECTION ===
Model Family:     Western Digital RE4 Serial ATA
Device Model:     WDC WD1003FBYX-01Y7B1
Serial Number:    WD-WCAW34063126
LU WWN Device Id: 5 0014ee 20739b75e
Firmware Version: 01.01V02
User Capacity:    1,000,204,886,016 bytes [1,00 TB]
Sector Size:      512 bytes logical/physical
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   8
ATA Standard is:  Exact ATA specification draft version not indicated
Local Time is:    Sat Jun 21 23:09:58 2014 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x82) Offline data collection activity
                                        was completed without error.
                                        Auto Offline Data Collection: Enabled.
Self-test execution status:      ( 121) The previous self-test completed having
                                        the read element of the test failed.
Total time to complete Offline
data collection:                (16500) seconds.
Offline data collection
capabilities:                    (0x7b) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine
recommended polling time:        (   2) minutes.
Extended self-test routine
recommended polling time:        ( 162) minutes.
Conveyance self-test routine
recommended polling time:        (   5) minutes.
SCT capabilities:              (0x303f) SCT Status supported.
                                        SCT Error Recovery Control supported.
                                        SCT Feature Control supported.
                                        SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0027   178   174   021    Pre-fail  Always       -       4083
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       26
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   094   094   000    Old_age   Always       -       4472
 10 Spin_Retry_Count        0x0032   100   253   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   253   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       24
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       23
193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -       2
194 Temperature_Celsius     0x0022   122   107   000    Old_age   Always       -       25
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       1
198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       1
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       2

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed: read failure       90%      3600         387217
# 2  Short offline       Completed: read failure       60%      3600         387217
# 3  Extended offline    Completed without error       00%        93         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.