OVH Community, your new community space.

EG SSD Max - sonda :)


mikel
21-03-2012, 18:08
Tylko wiesz jak to jest, skoro wszystko działa to trudno zgłosić płytę główną do wymiany, bo testy rescue nic nie wykryją w tej sprawie.

Spacedust
20-03-2012, 19:01
Tam jest pewnie SuperMicro X8STI+. Polecam zgłosić do wymiany. Ja wymieniałem moje chyba z 3-4 razy, ciągle coś się działo. Dysk USB się nie wykrywał, serwer nie chciał wstać, płyta główna psuła kolejne dyski itp.

mikel
20-03-2012, 11:30
Cytat Napisał victor
load wynikający z.... Zapewne iowait. A więc dyski/kontroler. Z dyskami to jest wogóle loteria, dysk może się prezentować dobrze i łapać zajawki tylko raz na jakiś czas. Żeby złapać w pełni sprawny serwer to ostatnio trzeba miec dużo szczęscia. Sprawdz command timeout na smart, dmesg. Także upewnij się że pamięc ci się nie wyczerpuje w tym czasie.
Oczywiście sprawdzałem iowait, nie było z tym problemu szczególnie że to dyski ssd ale dla pewności sprawdzałem i dmesg i vmstat. Po prostu w jednej sekundzie było np. 5 procesów php a w następnej 50 php tak jakby serwer przylagowywało ...

Cytat Napisał komar07
@mikel
Coś w tym jest, u mnie dokładnie taka sama sytuacja.
Mam tą maszynę pod bazę danych, wszystko jest cacy loady 0.5 maks 1 raz na jakiś czas wszystko zamarza, load skacze do ponad 100 i nie da się nic zrobić, nawet jak jestes zalogowany na maszynie. O dziwo konsola działa ale system wogóle nie reaguje "killall -9", "/etc/init.d/...." nic nie działa - ba mi nawet reboot nie działa potrzebny jest hard reboot.
po restarcie wszystko znowu cacy.
U mnie też działała przy load 100 ale po około 3-4 dniach takich dziwnych zachowań następnego dnia load nie wzrósł do 100 tylko serwer zamarzł. Po restarcie od tamtego czasu jest ok. Sprawdzałem też temperatury - nic się nie przegrzewało.

Ponieważ oczywiście na podstawie takich obserwacji mogę tylko się domyślać więc jak ktoś przerzucił kilkadziesiąt albo kilkaset maszyn i miał częściej takie problemy to już może wie o co biega. Ja bym zakładał, że to kwestia płyty głównej lub jakiegoś jej komponentu, który dostaje w pewnych momentach czkawki ale jeszcze wyrabia ale przez to load skacze do 100 a jak jakiegoś razu nie wyrobi to robi się freeze.

komar07
20-03-2012, 06:30
@mikel
Coś w tym jest, u mnie dokładnie taka sama sytuacja.
Mam tą maszynę pod bazę danych, wszystko jest cacy loady 0.5 maks 1 raz na jakiś czas wszystko zamarza, load skacze do ponad 100 i nie da się nic zrobić, nawet jak jestes zalogowany na maszynie. O dziwo konsola działa ale system wogóle nie reaguje "killall -9", "/etc/init.d/...." nic nie działa - ba mi nawet reboot nie działa potrzebny jest hard reboot.
po restarcie wszystko znowu cacy.

victor
20-03-2012, 03:06
load wynikający z.... Zapewne iowait. A więc dyski/kontroler. Z dyskami to jest wogóle loteria, dysk może się prezentować dobrze i łapać zajawki tylko raz na jakiś czas. Żeby złapać w pełni sprawny serwer to ostatnio trzeba miec dużo szczęscia. Sprawdz command timeout na smart, dmesg. Także upewnij się że pamięc ci się nie wyczerpuje w tym czasie.

Arkoso
19-03-2012, 18:29
Ba, ogólnie to zawsze trafiłem na jakąś maszynę z obojętnie jakiej serii co była kłopotliwa. Akurat EG SSD nie używałem, ale innym z serii EG też miałem problemy.

mikel
19-03-2012, 16:59
Cześć,
wśród maszyn, które używam są również wspomniane "EG SSD Max" i o ile przez większość czasu działają poprawnie to zarówno na jednej jak i drugiej w przeciągu powiedzmy 3-4 miesięcy zdarzył się w ostatecznym rezultacie podobny problem. Polegał on na tym, że maszyna po prostu "zamarzła" (nie odpowiadała na polecania z klawiatury etc.) co również było stwierdzone przez technika, który rozwiązywał problem. Po restarcie oczywiście wszystko wróciło do normy i jest obecnie ok. W przypadku jednej z maszyn dodatkowo miał miejsce zwiększony load przez kilka dni przed "zamarznięciem" tzn. generalnie zamiast 0.5 był 3-6 a raz dziennie wzrastał do 100 - oczywiście nie było tam ani zwiększonego zużycia ani ataków, ani zużycia swap po prostu maszyna tak jakby spowalniała przez co te same operacje zajmowały jej więcej czasu i load potrafił wzrosnąć - np. obecnie ta sama ilość odwiedzin itd. generuje load 0.5 ...

Ale teraz do rzeczy - zastanawiam się czy to tylko dziwny przypadek, że akurat te maszyny tak tajemniczo 'zamarzły' bez żadnego powodu a innym to się nie zdarza czy może jest to jakaś przypadłość tej konfiguracji - chciałbym się dowiedzieć, czy ktoś z Was z tą maszyną miał podobny problem bo nie wiem czy pakować się w kolejne.

W sumie przy okazji miło by było się dowiedzieć, cz taki freeze mieliście z innymi maszynami i czy znacie rozwiązanie lub jego powód lub możecie coś doradzić. Kiedyś jeden taki freeze (akura nie maszyny EG SSD Max) zakończył się tym, że konieczna była wymiana płyty głównej.