Co powoduje całkowite spadki produkcji w interfejsie przełącznika cisco?

16

Mam obudowę typu blade HP c7000, która zawiera przełączniki Cisco 3120X i Cisco 3120G z systemem iOS 12.2 (58) SE1. Same ostrza są bardzo lekko obciążone, ale wiele interfejsów na różnych przełącznikach ostrzy w podwoziu wykazuje dość dużą liczbę spadków mocy. Jeśli wielokrotnie sprawdzam liczbę spadków wyjściowych, nie tylko widzę, że licznik rośnie, ale czasem maleje. Liczby nie korelują z pakietami zapisanymi w interfejsie. Ustawienia QoS są domyślne dla platformy.

Następujące próbki pobrano w ciągu 30 sekund:

bc1019-3120-stack> sh int gi2 / 0/7 | spadają moce wyjściowe
  Kolejka wejściowa: 0/75/0/0 (rozmiar / maks. / Krople / spłukiwanie); Całkowite spadki produkcji: 2255550
bc1019-3120-stack> sh int gi2 / 0/7 | spadają moce wyjściowe
  Kolejka wejściowa: 0/75/0/0 (rozmiar / maks. / Krople / spłukiwanie); Całkowite spadki produkcji: 2255550
bc1019-3120-stack> sh int gi2 / 0/7 | spadają moce wyjściowe
  Kolejka wejściowa: 0/75/0/0 (rozmiar / maks. / Krople / spłukiwanie); Całkowite spadki produkcji: 2255550
bc1019-3120-stack> sh int gi2 / 0/7 | spadają moce wyjściowe
  Kolejka wejściowa: 0/75/0/0 (rozmiar / maks. / Krople / spłukiwanie); Całkowite spadki produkcji: 2255550
bc1019-3120-stack> sh int gi2 / 0/7 | spadają moce wyjściowe
  Kolejka wejściowa: 0/75/0/0 (rozmiar / maks. / Krople / spłukiwanie); Całkowite spadki produkcji: 2255550
bc1019-3120-stack> sh int gi2 / 0/7 | spadają moce wyjściowe
  Kolejka wejściowa: 0/75/0/0 (rozmiar / maks. / Krople / spłukiwanie); Całkowite spadki produkcji: 2255550
bc1019-3120-stack> sh int gi2 / 0/7 | spadają moce wyjściowe
  Kolejka wejściowa: 0/75/0/0 (rozmiar / maks. / Krople / spłukiwanie); Całkowite spadki produkcji: 451110
bc1019-3120-stack> sh int gi2 / 0/7 | spadają moce wyjściowe
  Kolejka wejściowa: 0/75/0/0 (rozmiar / maks. / Krople / spłukiwanie); Całkowite spadki produkcji: 451110
bc1019-3120-stack> sh int gi2 / 0/7 | spadają moce wyjściowe
  Kolejka wejściowa: 0/75/0/0 (rozmiar / maks. / Krople / spłukiwanie); Całkowite spadki produkcji: 902220
bc1019-3120-stack> sh int gi2 / 0/7 | spadają moce wyjściowe
  Kolejka wejściowa: 0/75/0/0 (rozmiar / maks. / Krople / spłukiwanie); Całkowite spadki produkcji: 1353330
bc1019-3120-stack> sh int gi2 / 0/7 | spadają moce wyjściowe
  Kolejka wejściowa: 0/75/0/0 (rozmiar / maks. / Krople / spłukiwanie); Całkowite spadki produkcji: 1804440
bc1019-3120-stack> sh int gi2 / 0/7 | spadają moce wyjściowe
  Kolejka wejściowa: 0/75/0/0 (rozmiar / maks. / Krople / spłukiwanie); Całkowite spadki produkcji: 1804440
bc1019-3120-stack> sh int gi2 / 0/7 | spadają moce wyjściowe
  Kolejka wejściowa: 0/75/0/0 (rozmiar / maks. / Krople / spłukiwanie); Całkowite spadki produkcji: 1804440
bc1019-3120-stack> sh int gi2 / 0/7 | spadają moce wyjściowe
  Kolejka wejściowa: 0/75/0/0 (rozmiar / maks. / Krople / spłukiwanie); Całkowite spadki produkcji: 451490

bc1019-3120-stack> sh int gi2 / 0/7 | i wydajność
  5-minutowa wydajność 301000 bitów / s, 119 pakietów / s

1) Czy jest coś jeszcze, co może spowodować spadek wydajności poza tym, że serwer nie odbiera ramek wystarczająco szybko?

2) Jaką maksymalną liczbę zrzutów wyjściowych może zarejestrować licznik interfejsu? Czy przewraca się, gdy osiąga maksimum?

3) Co można uznać za zdrowe tempo spadków produkcji?

Użytkownik123456
źródło
Jak zauważył Leonardo Abdalla, nieregularne spadki wydajności widoczne na naszym podwoziu są wynikiem błędu CSCtq86186
User123456
To błąd. Uderzyliśmy w to samo, zaktualizowaliśmy do c3750e-universalk9-mz.150-2.SE4.bin i wszystko jest w porządku. JB

Odpowiedzi:

14

O ile ktoś nie wyczyści liczników, nigdy nie powinieneś widzieć żadnych liczników typu licznika przebiegu (tych, które zwiększają się w zależności od akcji pakietu), zawsze powinny wzrosnąć. Ta część brzmi jak błąd.

Jeśli chodzi o to, co powoduje w szczególności spadek produkcji, istnieje tak wiele różnych przyczyn, że bardzo trudno jest dokładnie go określić. Czasami w płycie montażowej przełącznika występują przeciążenia, które mogą się pojawiać, gdy wyjście spada na interfejsie wychodzącym. W rzadkich przypadkach można również uzyskać mikroprzaski, które nie pojawiają się podczas odpytywania w 1-minutowych odstępach, co szybko przeciąża interfejs, ale następnie bardzo szybko spada. Sugerowałbym pobranie SNID OID dla spadków wyjściowych, a następnie wykreślić to i zobaczyć, jak to odpowiada licznikowi CLI.

Ogólnie rzecz biorąc, nie chcesz żadnych spadków danych wyjściowych, ponieważ wskazują one pakiet, który nie dotarł do miejsca docelowego. Ale jeśli używasz swoich linków na gorąco (o których mówisz, że nie jesteś), są one do pewnego stopnia nieuniknione, głównie z powodu buforowania przełączników wewnętrznych itp.

Aaron
źródło
Zastanawiam się, czy w tym przypadku jest tak wiele wypadków, liczniki się zawijają.
nos
1
Są to 32-bitowe liczniki, więc nie zbliżasz się do granic. (i być może 64-bitowy wewnętrznie)
Ricky Beam
8

Moją pierwszą myślą jest powódź unicast, szczególnie jeśli liczniki rosną zgodnie w szeregu portów w tym samym vlan. Zgadzam się z Aaronem, że zmniejszanie licznika brzmi jak błąd. Licznik prawdopodobnie przewróci się na 2 ^ 64, ale nie stanie się to w ciągu kilku sekund. Uważam, że zdrowy spadek produkcji jest zerowy, ale nie jest to realistyczne - nawet w centrum danych. Czy korzystasz z łączy 10G?

Dennis Olvany
źródło
Tak, jedno łącze 10gig uplink z każdego z dwóch 3120X w obudowie kasety (jeden port zablokowany z powodu stp)
User123456
Podobnie jak łącze nadrzędne 1G z łatwością przytłoczy łącze nadrzędne 100M, jestem pewien, że to samo dotyczy 10G / 1G. Jest to szczególnie prawdziwe, gdy występuje zalanie emisji pojedynczej. Wątpię, by zalanie emisji pojedynczej było widoczne w statystykach przepustowości / pps.
Dennis Olvany
5

Wygląda na to, że trafiasz w błąd CSCtq86186. Ten błąd został wykryty w 3750, 2960, ale może również wpływać na przełączniki ostrzy.

Leonardo Abdalla
źródło
To jest dokładnie ten błąd, który trafiamy w nasze 3120-y - naprawiony w wersji 15.0 (2) SE. Dzięki!
Użytkownik123456
4

Jeśli doświadczasz powodzi unicast, uruchomienie Wireshark na jednym z hostów lub połączenie z jednym z portów powinno to pokazać dość szybko.

Brzmi jak masz nadmiarowe rdzenie w kwadratowej topologii? Jeśli tak, spróbuj dodać to polecenie do interfejsu vlan:

arp timeout 300

Tabele CAM przechowują wpisy przez 5 minut, podczas gdy tabele ARP są przechowywane przez cztery godziny (domyślne). Ustawienie ARP w celu dopasowania do CAM może wyeliminować zalewanie emisji pojedynczej kosztem niewielkiego wzrostu CPU. Catalyst 6500/6000 Przełączniki Problemy z tabelą ARP lub CAM

Piotr
źródło
1

Spadki wyjściowe są dość powszechne na mniejszych przełącznikach z małymi buforami, ponieważ jakakolwiek seria spowoduje ich wyczerpanie. Tak naprawdę nie jestem zaznajomiony z 3120, więc nie mogę mówić o rozmiarze jego bufora, ale przynajmniej jest to częsty powód, dla którego można uzyskać spadek wydajności.

Konkretnymi przyczynami są blokowanie głowicy linii (HOLB), gdzie wiele portów źródłowych wysyła do jednego miejsca docelowego, a więc dostajemy zatory. Innym częstym powodem jest przejście z wyższej prędkości portu na niższą, tj. 10G na 1G lub 40G na 10G.

Polecam uruchomić kontrolery show ethernet-kontroler X, gdzie X jest twoim portem. Powinieneś uzyskać pewne informacje dotyczące spadków danych wyjściowych, na przykład jeśli coś próbuje wysyłać dane do dużych ramek, co może się zdarzyć, jeśli nie masz spójnego MTU w sieci.

kll
źródło