Długość życia strony programu SQL Server 2012 resetuje się do 0 po około 50 dniach

12

Zauważyłem dziwne zachowanie na klastrze HA z 2 serwerami i miałem nadzieję, że ktoś potwierdzi moje podejrzenie lub może zaoferuje inne wyjaśnienie ... Oto moja konfiguracja:

  • Instalacja 2 serwerów SQL 2012 SP1
  • SQL AlwaysOn HA został włączony dla kilku baz danych
  • Procesory to 2,4 GHz, 4 rdzenie
  • Pamięć RAM wynosi 34 GB (jest to instancja AWS, stąd liczba nieparzysta)
  • Wykorzystanie zasobów jest stosunkowo niskie - każdy serwer ma ponad 14 GB wolnej pamięci, a SQL nie jest ograniczony ilością pamięci do użycia
  • Czas dostępu do dysku jest w porządku - rzadko przekracza 15ms / odczyt lub zapis
  • Bazy danych nie są duże - 1 GB, 1,5 GB, 7,5 GB
  • Proces serwera SQL używa 16 GB prywatnych bajtów, 15 GB zestawu roboczego

Ogólnie rzecz biorąc, nie odnotowano problemów z zasobami. Teraz część nieparzysta. SQL nie jest uruchamiany ponownie (proces działa od prawie 6 miesięcy), ale wydaje się, że co ~ 50 dni licznik Oczekiwanej długości życia strony spada do (prawie) 0. Do tego momentu stale rośnie, bez żadnych spadków. Oto wykres perf:

wprowadź opis zdjęcia tutaj

Kiedy patrzę na dane licznika (nie mam dokładnej liczby, tylko godzinna agregacja), wydaje się, że wartość licznika PLE osiągała około 4 295 000 sekund (około 50 dni) za każdym razem (przynajmniej za każdym razem, gdy mam dane).

Moją szaloną teorią jest to, że liczba PLE jest utrzymywana w milisekundach jako liczba całkowita bez znaku (która ma limit 4 294 967 295) i po 49,71 dni resetuje się, albo z założenia, albo z powodu błędu. To wyjaśniałoby zachowanie dwóch serwerów i identyczny wzorzec, jaki mają. Lub może to być coś zupełnie innego i po prostu nie mam sensu. :)

Czy ktoś widział coś takiego lub może wyjaśnić to zachowanie?

PS Widziałem ten post, ale moja sprawa wydaje się nieco inna.

PPS To jest repost - pierwotnie opublikowałem go tutaj , ale doradzono mi, że publiczność tutaj jest bardziej odpowiednia.

Dzięki!

CRCerr0r
źródło
Komentarze nie są przeznaczone do rozszerzonej dyskusji; ta rozmowa została przeniesiona do czatu .
Paul White 9

Odpowiedzi:

3

Widziałem to zachowanie na stronie klienta z SQL2012 SP1. Specyfika tutaj to NUMA i PLE demonstrujące wzór „piłokształtny”, ale w cyklu godzinnym.

Kilka wątków na SQLServerCentral omówiono na ten temat:

http://www.sqlservercentral.com/Forums/Topic1415833-2799-1.aspx http://www.sqlservercentral.com/Forums/Topic1424826-2799-1.aspx

końcowy wynik jest taki, że zastosowanie SP1 CU4 wydaje się rozwiązać problem.

CU4 zawiera niewinnie wyglądającą poprawkę Dostępna jest aktualizacja zarządzania pamięcią SQL Server 2012 KB2845380

Warte spróbowania?

Kev Riley
źródło
Dziękujemy za opublikowanie tego (przepraszam za opóźnioną odpowiedź, z jakiegoś powodu nigdy nie otrzymałem powiadomienia o twoim poście). Rzuciłem okiem na linki - wyglądają nieco podobnie, więc spróbuję skopiować konfigurację w QA, zastosować CU4 (lub prawdopodobnie nawet przejść bezpośrednio do SP2), a następnie sprawdzić ponownie. Z tempem, które to widzę (co 50 dni) minie trochę czasu, zanim będę mógł potwierdzić, ale odeślemy wiadomość, gdy będę mieć wyniki. BTW, moje wzorce nadal się utrzymują - stały wzrost przez ~ 50 dni, a następnie gwałtowny spadek do ~ 0 i ponowne wznoszenie - łącznie 4 od rozpoczęcia usługi w grudniu.
CRCerr0r
Aktualizacja ... Potwierdziłem to w naszym środowisku kontroli jakości. Statystyki, które dostałem stamtąd to: Całkowita liczba dni między resetami - 49,71 (+/- 1 minuta); Osiągnięto maksymalną wartość PLE - 4 294 961 (przy 1 minucie próbek, więc mogła być nieco wyższa). To właściwie potwierdza obserwacje produkcyjne. Zastosuję CU4 i złożę raport za około 50 dni ... :)
CRCerr0r
1
Jakieś wieści dotyczące tego?
Michael Green