OVH Community, your new community space.

Serwer brak odpowiedzi 20min, dziwne logi


Spacedust
20-07-2012, 20:51
Jeśli oni w supporcie twierdzą, że to dyski są uszkodzone to pracują tam niedouczeni ludzie. Chyba już wystarczająco długo stosują Seagate, aby wiedzieć, że pewne parametry w SMART mają nieprawidłowe wartości.

Wymiana dysków bez konsultacji z klientem byłaby już całkowitym chamstwem. W innych serwerowniach odbywa się to na zasadzie, że to klient decyduje o wymianie i można się nawet ładnie umówić na godzinę, o której ma być wykonana wymiana. Mało tego, jeśli coś pójdzie nie tak to można wsadzić z powrotem poprzedni dysk np. wymieniamy uszkodzony dysk w RAID 1, rozpoczyna się resync macierzy i nagle ulega uszkodzeniu cały system plików ewentualnie, gdy np. w trakcie resyncu dysk źródłowy ulega uszkodzeniu.

desavil
20-07-2012, 12:33
Połączeń tyle co zawsze, były dni kilka tygodni temu co połączeń było bardzo znacznie więcej unikalnych, a problemów nie było takich.

no4b
20-07-2012, 12:16
Raz na dobę prawie na pewno nie wystarczy Zależy jak dużo masz unikalnych gości.

desavil
20-07-2012, 12:05
Ok, ustawione.

Ale skąd takie coś się w ogóle wzięło mnie zastanawia. Jak mam serwery kilka lat już, usługi te same a nigdy czegoś takiego nie miałem.

borec
20-07-2012, 11:48
Do crona tak, żeby nie rzucało błędami w logach Podejrzewam, że raz na dobę starczy. Zmień jeszcze jądro na bez-grsec i sprawdź czy to coś zmieni.

no4b
20-07-2012, 11:11
Cytat Napisał desavil
echo 0 > /proc/sys/net/ipv4/route/flush
Do crona z tym, że wrzucaj tam 1 a nie 0.

desavil
20-07-2012, 10:02
Cytat Napisał borec
Wrzuć to do crona. Btw jak Pani z supportu sprawdziła Ci te dyski?
Ona to pewnie sprawdziła a ich panelu administracyjnym v5 zaajaxowanym i pewnie źle pobrało odczyty z serwera...

Co jaki czas proponujesz uruchomić wpis tego crona?
I czy tak jak pisał seal, sieciówka może być uszkodzona?

Najlepsze jest to, że ja jej mówię co mam w logach, a ta mi że mam zrobić testy w trybie rescue. Na pewno zrobię test sieciówki w tym, jak tam testuje tylko prędkość łącza...

borec
20-07-2012, 09:51
Cytat Napisał desavil
Czy użycie komendy: echo 0 > /proc/sys/net/ipv4/route/flush
Wystarczy? Muszę zrobić jeszcze restart maszyny, czy ta komenda na stałe będzie czyściła ten routing.
Wrzuć to do crona. Btw jak Pani z supportu sprawdziła Ci te dyski?

desavil
20-07-2012, 09:41
Cytat Napisał no4b
Czyść cache tablicy routingu.
Czy użycie komendy: echo 0 > /proc/sys/net/ipv4/route/flush
Wystarczy? Muszę zrobić jeszcze restart maszyny, czy ta komenda na stałe będzie czyściła ten routing i zmiana zostanie zapisana, lub dodać ją do autostartu?


Najlepsze jest to, że Pani z supportu telefonicznego powiedziała mi, że mam dyski uszkodzone, w dodatku dwa!

Oto uszkodzone dyski:
(Panel OVH):
Kod:
IO : md1
Wolumen	Typ	Całkowita pojemność	Status
vol0	raid1	10.0 GB	active
sda1		10.0 GB	OK
sdb1		10.0 GB	OK
 
IO : md2
Wolumen	Typ	Całkowita pojemność	Status
vol0	raid1	1852.5 GB	active
sda2		1852.5 GB	OK
sdb2		1852.5 GB
smartcheck:
Kod:
/dev/sda: Reallocated_Sector_Ct = 0
/dev/sda: Spin_Retry_Count = 0
/dev/sda: Reported_Uncorrect = 0
/dev/sda: Command_Timeout = 0
/dev/sda: Current_Pending_Sector = 0
/dev/sda: Offline_Uncorrectable = 0
/dev/sda: UDMA_CRC_Error_Count = 0

/dev/sdb: Reallocated_Sector_Ct = 0
/dev/sdb: Spin_Retry_Count = 0
/dev/sdb: Reported_Uncorrect = 0
/dev/sdb: Command_Timeout = 0
/dev/sdb: Current_Pending_Sector = 0
/dev/sdb: Offline_Uncorrectable = 0
/dev/sdb: UDMA_CRC_Error_Count = 0
Smart:
/dev/sda
Kod:
=== START OF INFORMATION SECTION ===
Device Model:     ST2000DM001-9YN164
Serial Number:    Z2F06180
Firmware Version: CC4C
User Capacity:    2,000,398,934,016 bytes
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   8
ATA Standard is:  ATA-8-ACS revision 4
Local Time is:    Fri Jul 20 10:40:19 2012 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x00) Offline data collection activity
                                        was never started.
                                        Auto Offline Data Collection: Disabled.
Self-test execution status:      (   0) The previous self-test routine completed
                                        without error or no self-test has ever
                                        been run.
Total time to complete Offline
data collection:                 ( 592) seconds.
Offline data collection
capabilities:                    (0x73) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        No Offline surface scan supported.
                                        Self-test supported.
                                        Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine
recommended polling time:        (   1) minutes.
Extended self-test routine
recommended polling time:        ( 255) minutes.
Conveyance self-test routine
recommended polling time:        (   2) minutes.
SCT capabilities:              (0x3085) SCT Status supported.

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   118   099   006    Pre-fail  Always       -       193778984
  3 Spin_Up_Time            0x0003   096   096   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       5
  5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   084   060   030    Pre-fail  Always       -       332043285
  9 Power_On_Hours          0x0032   097   097   000    Old_age   Always       -       3161
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       5
183 Runtime_Bad_Block       0x0032   100   100   000    Old_age   Always       -       0
184 End-to-End_Error        0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
188 Command_Timeout         0x0032   100   100   000    Old_age   Always       -       0
189 High_Fly_Writes         0x003a   001   001   000    Old_age   Always       -       142
190 Airflow_Temperature_Cel 0x0022   061   051   045    Old_age   Always       -       39 (Lifetime Min/Max 23/49)
191 G-Sense_Error_Rate      0x0032   100   100   000    Old_age   Always       -       0
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       4
193 Load_Cycle_Count        0x0032   100   100   000    Old_age   Always       -       141
194 Temperature_Celsius     0x0022   039   049   000    Old_age   Always       -       39 (0 21 0 0)
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
240 Head_Flying_Hours       0x0000   100   253   000    Old_age   Offline      -       268121923390545
241 Total_LBAs_Written      0x0000   100   253   000    Old_age   Offline      -       172453834109707
242 Total_LBAs_Read         0x0000   100   253   000    Old_age   Offline      -       159212554241969

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed without error       00%      2021         -
# 2  Short offline       Completed without error       00%      2010         -
# 3  Short offline       Completed without error       00%      2010         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.
/dev/sdb
Kod:
=== START OF INFORMATION SECTION ===
Device Model:     ST2000DM001-9YN164
Serial Number:    Z2403YSB
Firmware Version: CC4C
User Capacity:    2,000,398,934,016 bytes
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   8
ATA Standard is:  ATA-8-ACS revision 4
Local Time is:    Fri Jul 20 10:40:45 2012 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x00) Offline data collection activity
                                        was never started.
                                        Auto Offline Data Collection: Disabled.
Self-test execution status:      (   0) The previous self-test routine completed
                                        without error or no self-test has ever
                                        been run.
Total time to complete Offline
data collection:                 ( 609) seconds.
Offline data collection
capabilities:                    (0x73) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        No Offline surface scan supported.
                                        Self-test supported.
                                        Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine
recommended polling time:        (   1) minutes.
Extended self-test routine
recommended polling time:        ( 255) minutes.
Conveyance self-test routine
recommended polling time:        (   2) minutes.
SCT capabilities:              (0x3085) SCT Status supported.

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   116   099   006    Pre-fail  Always       -       104245320
  3 Spin_Up_Time            0x0003   096   096   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       5
  5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   084   060   030    Pre-fail  Always       -       312662645
  9 Power_On_Hours          0x0032   097   097   000    Old_age   Always       -       3161
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       5
183 Runtime_Bad_Block       0x0032   100   100   000    Old_age   Always       -       0
184 End-to-End_Error        0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
188 Command_Timeout         0x0032   100   100   000    Old_age   Always       -       0
189 High_Fly_Writes         0x003a   098   098   000    Old_age   Always       -       2
190 Airflow_Temperature_Cel 0x0022   064   054   045    Old_age   Always       -       36 (Lifetime Min/Max 23/46)
191 G-Sense_Error_Rate      0x0032   100   100   000    Old_age   Always       -       0
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       4
193 Load_Cycle_Count        0x0032   099   099   000    Old_age   Always       -       2298
194 Temperature_Celsius     0x0022   036   046   000    Old_age   Always       -       36 (0 22 0 0)
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
240 Head_Flying_Hours       0x0000   100   253   000    Old_age   Offline      -       142051748351033
241 Total_LBAs_Written      0x0000   100   253   000    Old_age   Offline      -       253607729322769
242 Total_LBAs_Read         0x0000   100   253   000    Old_age   Offline      -       149209820733237

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed without error       00%      2020         -
# 2  Short offline       Completed without error       00%      2010         -
# 3  Short offline       Completed without error       00%      2010         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.
Widzicie tu jakieś uszkodzenie? Bo ja nie.
W dodatku dowiedziałem się, że ja mam mieć backup - nawet jak zgłoszę wymianę dysku (haha), a technik zobaczy że dwa są uszkodzone, to wymieni obydwa, no i RAID1 pójdzie się... w takim wypadku.

no4b
20-07-2012, 09:27
Czyść cache tablicy routingu.

desavil
20-07-2012, 09:16
Właśnie z tego co w internecie czytałem, to głównie coś o sieci pisali.

seal
20-07-2012, 09:13
przekaż te logi - szczególnie te call trace do supportu - wg mnie umiera sieciówka

desavil
20-07-2012, 08:56
Witajcie!

W dniu właściwie dzisiejszym z niewiadomych powodów serwer przestał odpowiadać na pingi, ssh nie działało - tak jakby padła sieć. Automatycznie system monitoringu OVH zgłosił usterkę, ale chyba administrator nie zdążył nawet podejść do serwera, bo dostałem wiadomość, że serwer już odpowiada na pingi i interwencja została wykasowana z ich listy. Serwer nawet się nie zrestartował, uptime takie jak powinno być. Miało to miejsce na szczęście w godzinach nocnych, ale trzeba by temu zapobiec w przyszłości.

Poszukując przyczyny, przeglądnąłem logi. Zastanawiają mnie dwa wpisy, które stale się powtarzają i zaczęły w logach występować od czasu rozpoczęcia przerwy z dostępem do jej końca.

/var/log/messages
Kod:
Jul 20 00:31:31 nsXXX kernel: dst cache overflow
Jul 20 00:31:31 nsXXX kernel: dst cache overflow
Jul 20 00:31:31 nsXXX kernel: dst cache overflow
Jul 20 00:31:36 nsXXX kernel: net_ratelimit: 765 callbacks suppressed
Jul 20 00:31:36 nsXXX kernel: dst cache overflow
Jul 20 00:31:36 nsXXX kernel: dst cache overflow
Jul 20 00:31:36 nsXXX kernel: dst cache overflow
Jul 20 00:31:36 nsXXX kernel: dst cache overflow
Jul 20 00:31:36 nsXXX kernel: dst cache overflow
Jul 20 00:31:36 nsXXX kernel: dst cache overflow
Jul 20 00:31:36 nsXXX kernel: dst cache overflow
Jul 20 00:31:36 nsXXX kernel: dst cache overflow
Jul 20 00:31:36 nsXXX kernel: dst cache overflow
Jul 20 00:31:36 nsXXX kernel: dst cache overflow
Jul 20 00:31:41 nsXXX kernel: net_ratelimit: 910 callbacks suppressed
Jul 20 00:31:41 nsXXX kernel: dst cache overflow
Jul 20 00:31:41 nsXXX kernel: dst cache overflow
Jul 20 00:31:41 nsXXX kernel: dst cache overflow
Jul 20 00:31:41 nsXXX kernel: dst cache overflow
Jeszcze zauważyłem, że co jakiś czas pomiędzy tymi wpisami co są powyżej pojawia się takie coś (czego wcześniej nie było i jak wpisy się te skończyły to, to również):
Kod:
Jul 20 00:22:36 nsXXX kernel: Pid: 8052, comm: program Not tainted 3.2.13-grsec-xxxx-grs-ipv6-64 #1
Jul 20 00:22:36 nsXXX kernel: Call Trace:
Jul 20 00:22:36 nsXXX kernel:   [] __rcu_pending+0x159/0x410
Jul 20 00:22:36 nsXXX kernel: [] rcu_check_callbacks+0x5f/0x120
Jul 20 00:22:36 nsXXX kernel: [] update_process_times+0x41/0x80
Jul 20 00:22:36 nsXXX kernel: [] tick_sched_timer+0x66/0xb0
Jul 20 00:22:36 nsXXX kernel: [] __run_hrtimer+0x40/0xe0
Jul 20 00:22:36 nsXXX kernel: [] hrtimer_interrupt+0xcd/0x1f0
Jul 20 00:22:36 nsXXX kernel: [] smp_apic_timer_interrupt+0x64/0xa0
Jul 20 00:22:36 nsXXX kernel: [] apic_timer_interrupt+0x68/0x70
Jul 20 00:22:36 nsXXX kernel: [] ? tasklet_kill+0x90/0x90
Jul 20 00:22:36 nsXXX kernel: [] ? _raw_spin_lock_bh+0x11/0x40
Jul 20 00:22:36 nsXXX kernel: [] rt_garbage_collect+0x14c/0x450
Jul 20 00:22:36 nsXXX kernel: [] dst_alloc+0x155/0x170
Jul 20 00:22:36 nsXXX kernel: [] ip_route_input_common+0x469/0xeb0
Jul 20 00:22:36 nsXXX kernel: [] ? nf_nat_in+0x31/0xa0
Jul 20 00:22:36 nsXXX kernel: [] ? inet_del_protocol+0x40/0x40
Jul 20 00:22:36 nsXXX kernel: [] ? inet_del_protocol+0x40/0x40
Jul 20 00:22:36 nsXXX kernel: [] ip_rcv_finish+0x1e1/0x3b0
Jul 20 00:22:36 nsXXX kernel: [] ip_rcv+0x291/0x310
Jul 20 00:22:36 nsXXX kernel: [] __netif_receive_skb+0x237/0x380
Jul 20 00:22:36 nsXXX kernel: [] netif_receive_skb+0x78/0x80
Jul 20 00:22:36 nsXXX kernel: [] ? __kmalloc_node_track_caller+0x30/0x100
Jul 20 00:22:36 nsXXX kernel: [] napi_skb_finish+0x50/0x70
Jul 20 00:22:36 nsXXX kernel: [] napi_gro_receive+0x105/0x140
Jul 20 00:22:36 nsXXX kernel: [] e1000_receive_skb+0x56/0x70
Jul 20 00:22:36 nsXXX kernel: [] e1000_clean_rx_irq+0x296/0x3a0
Jul 20 00:22:36 nsXXX kernel: [] e1000_clean+0xb2/0x2f0
Jul 20 00:22:36 nsXXX kernel: [] net_rx_action+0x96/0x190
Jul 20 00:22:36 nsXXX kernel: [] __do_softirq+0x90/0x130
Jul 20 00:22:36 nsXXX kernel: [] call_softirq+0x1c/0x30
Jul 20 00:22:36 nsXXX kernel:   [] do_softirq+0x4d/0x80
Jul 20 00:22:36 nsXXX kernel: [] local_bh_enable+0x85/0x90
Jul 20 00:22:36 nsXXX kernel: [] ipt_do_table+0x25c/0x640
Jul 20 00:22:36 nsXXX kernel: [] ? local_bh_enable+0x85/0x90
Jul 20 00:22:36 nsXXX kernel: [] ? ipt_do_table+0x25c/0x640
Jul 20 00:22:36 nsXXX kernel: [] ? __nf_conntrack_find_get+0x32/0x1a0
Jul 20 00:22:36 nsXXX kernel: [] iptable_mangle_hook+0x12b/0x150
Jul 20 00:22:36 nsXXX kernel: [] nf_iterate+0x84/0xc0
Jul 20 00:22:36 nsXXX kernel: [] ? ip_finish_output2+0x280/0x280
Jul 20 00:22:36 nsXXX kernel: [] nf_hook_slow+0x6d/0x130
Jul 20 00:22:36 nsXXX kernel: [] ? ip_finish_output2+0x280/0x280
Jul 20 00:22:36 nsXXX kernel: [] ? bictcp_cong_avoid+0x25/0x390
Jul 20 00:22:36 nsXXX kernel: [] ip_output+0x79/0xa0
Jul 20 00:22:36 nsXXX kernel: [] ip_local_out+0x24/0x30
Jul 20 00:22:36 nsXXX kernel: [] ip_queue_xmit+0x1ae/0x3b0
Jul 20 00:22:36 nsXXX kernel: [] ? __skb_clone+0x29/0x100
Jul 20 00:22:36 nsXXX kernel: [] tcp_transmit_skb+0x541/0x910
Jul 20 00:22:36 nsXXX kernel: [] tcp_write_xmit+0x21b/0xaf0
Jul 20 00:22:36 nsXXX kernel: [] ? sk_stream_alloc_skb+0x41/0x110
Jul 20 00:22:36 nsXXX kernel: [] __tcp_push_pending_frames+0x21/0x90
Jul 20 00:22:36 nsXXX kernel: [] tcp_sendmsg+0xa49/0x10d0
Jul 20 00:22:36 nsXXX kernel: [] ? __kfree_skb+0x42/0xa0
Jul 20 00:22:36 nsXXX kernel: [] inet_sendmsg+0x64/0xd0
Jul 20 00:22:36 nsXXX kernel: [] sock_sendmsg+0xe3/0x110
Jul 20 00:22:36 nsXXX kernel: [] ? dequeue_task_fair+0x55/0x1d0
Jul 20 00:22:36 nsXXX kernel: [] ? __schedule+0x4db/0x8f0
Jul 20 00:22:36 nsXXX kernel: [] ? timerqueue_add+0x60/0xb0
Jul 20 00:22:36 nsXXX kernel: [] ? __hrtimer_start_range_ns+0x165/0x370
Jul 20 00:22:36 nsXXX kernel: [] sys_sendto+0x105/0x140
Jul 20 00:22:36 nsXXX kernel: [] ? hrtimer_cancel+0x1a/0x30
Jul 20 00:22:36 nsXXX kernel: [] ? do_nanosleep+0x48/0xd0
Jul 20 00:22:36 nsXXX kernel: [] ? hrtimer_get_res+0x50/0x50
Jul 20 00:22:36 nsXXX kernel: [] sys_send+0xf/0x20
Jul 20 00:22:36 nsXXX kernel: [] compat_sys_socketcall+0x24d/0x310
Jul 20 00:22:36 nsXXX kernel: [] ? compat_sys_time+0x1c/0x50
Jul 20 00:22:36 nsXXX kernel: [] sysenter_dispatch+0x7/0x24
Mój system - Linux Debian 6.0 - 64bit, kernel - 3.2.13-grsec-xxxx-grs-ipv6-64