We are in the process of migrating this forum. A new space will be available soon. We are sorry for the inconvenience.

Awaria RPS z 22 stycznia


oles@ovh.net
23-01-2009, 08:32
Witam,
Wczoraj od popołudnia do późnych godzin nocnych występował problem,
który dotyczył około 20% Klientów serwerów RPS.
Chodzi o problem z zasilaniem dla 8 serwerów SAN. Tydzień temu grupa
elektryków pracowała w sali SAN nad dwoma systemami zasilania (aby
było możliwe uruchomienie nowych SAN). W sali mamy ponad 40 działających
SAN oraz 120 do uruchomienia. Podczas prac jeden z systemów zasilania
został odłączony, ale po zakończeniu prac został uruchomiony ponownie.
Niestety popełnili ludzki błąd na poziomie zmian zasilania na 8 SAN.
Wczoraj, podczas testów grup zasilających, tych 8 SAN zostało uszkodzonych.
Problem został natychmiast usunięty, ale potrzebowaliśmy kilku godzin
na przywrócenie usługi. Problem z długim czasem przywracania usług jest
związany z BUG w Solaris, który powoduje, że czas przywracania do
działania oscyluje od 2 do 12 godzin (w zależności od liczby filesystem
do podmontowania ze snapshotami lub bez). Pracujemy nad SAN, aby poprawić
czas reboot'u SAN, ale BUG jest wciąż obecny. Krótko mówiąc 18% RPS było
niedostępnych przez 2 godziny, a 2% przez 12 godzin (jeden z SAN zbyt
długo się rebootował). Sprawdzamy w jaki sposób możemy ominąć tego
typu problemy.
Wszyscy Klienci, którzy doświadczyli tego problemu otrzymają rekompensatę
w postaci jednego miesiąca darmowego. Nadjalej we wtroek pojawi się
wiadomość e-mail z adresem, gdzie trzeba będzie wypełnić zgłoszenie
w tej sprawie.

Przepraszamy za problem.

Więcej:
http://prace.ovh.pl/?do=details&id=10779
http://prace.ovh.pl/?do=details&id=10831