Czy mój port przełącznika Cisco jest zły?

9

W ciągu ostatnich kilku dni ścigałem problem utraty pakietów i stabilności sieci dla garstki użytkowników końcowych w sieci wewnętrznej ... Te problemy pojawiły się w zeszłym tygodniu, ale lokalizacja została uderzona piorunem sześć tygodni temu.

Widziałem 5-10% utraty pakietów między stosem czterech Cisco 2960 a kilkoma komputerami i telefonami po drugiej stronie 77-metrowego biegu. Komputery PC były uruchamiane w linii z telefonami za pośrednictwem łącza trunkingowego ( pastebin konfiguracji przełączania ). Obserwowaliśmy przerywane połączenia i przerwy w aplikacjach klient-serwer i łączność z Microsoft Exchange.

Próbowałem zdalnie wykonać zwykłe kroki rozwiązywania problemów, zlecając lokalnym technikom wykonanie następujących czynności podczas przerw w pracy użytkownika i produkcji:

  • zamień kable między gniazdkiem ściennym a urządzeniem.
  • zmienić kable krosowe między panelem krosowym a portami przełącznika.
  • wypróbuj różne porty przełącznika w stosie 2960.
  • zmieniać urządzenia użytkowników końcowych za pomocą dobrze znanego sprzętu (nowe telefony, różne komputery).
  • wyczyść liczniki interfejsu portu przełącznika i uważnie monitoruj błędy zwiększania. ( Wyjście Pastebin zsh int )
  • Pored na dziennikach urządzenia i wykresach RRD Observium . Brak problemów w górę / w dół łącza po stronie przełącznika.
  • zmienić listwy zasilające po stronie użytkownika końcowego.
  • kabel testowy działa z Cisco 2960 przy użyciu test cable-diagnostics tdr int Gi4/0/9(czystego) *
  • kabel testowy działa z testerem kabli Tripp-Lite. (czysty)
  • uruchom diagnostykę na elementach stosu przełączników. (czysty)

Ostatecznie zajęło trzy zmiany portów przełącznika, aby znaleźć stabilne rozwiązanie. Jedynym logicznym wnioskiem jest to, że kilka portów przełącznika Cisco 2960 jest wadliwych lub niestabilnych ... Nie martwy, ale też niespójny w działaniu. Nie jestem przyzwyczajony do tego, że poszczególne porty umierają w ten sposób.

Co jeszcze mogę przetestować lub sprawdzić, aby stwierdzić, czy te urządzenia są złe?

Jakie jest najlepsze podejście do weryfikacji tego?

Czy zdarza się, że pojedyncze porty mają problemy, a nie ciągły bank portów?


BTW - show cable-diagnostics tdr int Gi4/0/14jest bardzo fajny ...

Interface Speed Local pair Pair length        Remote pair Pair status
--------- ----- ---------- ------------------ ----------- --------------------
Gi4/0/14  1000M Pair A     79   +/- 0  meters Pair B      Normal              
                Pair B     75   +/- 0  meters Pair A      Normal              
                Pair C     77   +/- 0  meters Pair D      Normal              
                Pair D     79   +/- 0  meters Pair C      Normal              
ewwhite
źródło
Czy możesz dodać „pokaż interfejs gi4 / 0/9” ... również twoje wyjście tdr pochodzi z gi4 / 0/14 ... ile portów ma problem?
Mike Pennington,
@MikePennington 4 z 48 interfejsów wykazywało problemy. Liczniki zostały usunięte. Ale jedynym licznikiem, który Total output drops: 1461
wzrastał,
1461 kropli z łącznej liczby pakietów wyjściowych? Czy wszystkie cztery problematyczne porty wykazują spadki produkcji?
Mike Pennington,
@MikePennington Interfejs wyjścia pastebin dla dwóch problematycznych portów.
ewwhite
1
Nie jest to odpowiedź techniczna, ale ... czy masz aktywny kontrakt TAC? Jeśli tak, zaangażuj go: P
ItsGC

Odpowiedzi:

7

Podczas gdy banki portów często korzystają z ASIC, każdy musi mieć własną osobną PHY. Jeśli PHY ulegnie uszkodzeniu, może mieć bardzo problem, podczas gdy jego sąsiedzi nie.

To powiedziawszy, spadki wydajności są dziwnym objawem fizycznego problemu - nie niemożliwe, ale nie typowe. Niezależnie od łączy półdupleksowych, spadki wyjściowe zwykle mają więcej wspólnego z wyczerpaniem bufora niż problemami fizycznymi.

Możesz uzyskać więcej informacji, ustawiając przechwytywanie pakietów po drugiej stronie drutu. Zła PHY powinna się objawiać z pewną liczbą błędów warstwy fizycznej (złe CRC, runt / gigant itp.) Po jednej lub obu stronach łącza.

Podsumowując, brzmi to tak, jakbyś wyeliminował na tyle, że może przekroczyć granicę malejących zysków. Polecam RMA, jeśli masz umowę.

rnxrx
źródło
Ponieważ dzieje się tak na wielu portach na wielu (2) przełącznikach, ale tylko dla niewielkiej części użytkowników, czy jest to przypadek, w którym musiałbym wymienić wszystkie cztery przełączniki? Po prostu trudno mi lobbować za wymianą, nie znając podstawowego problemu, ponieważ wymiana będzie wymagała znacznych przestojów,
ponownego przywracania
Błyskawica jest bardzo dziwnym zwierzęciem, a obrażenia od niej mogą pojawić się znacznie później i w nieprzewidywalny sposób. Przestój jest do bani, oczywiście, ale można go nieco poprawić, zapętlając przełącznik zastępczy, przesuwając łaty, a następnie wyciągając stare. Żałuję, że nie było łatwiejszej odpowiedzi, ale jeśli problem został rozwiązany w kilku portach, nie pozostało wiele do zrobienia.
rnxrx
PHY jest obecnie prawie zawsze zintegrowane z ASIC. To jest po prostu tańsze. Magnetyczność jest jedyną częścią, której tak naprawdę nie mogą zintegrować z ASIC, która może zostać uszkodzona, ale to nie jest PHY. Ponadto dość często stosuje się układ magnetyczny Quad, więc jeśli problem dotyczy 4 portów, nadaje się do tej teorii.
Chris S
Niezupełnie - jeśli przejrzysz architekturę większości przełączników Cisco (w tym tego, o którym mowa), te same ASIC są często używane dla jednego lub dwóch światłowodów lub miedzi GE lub grupy 100TX. Znacznie więcej funkcji jest przenoszonych na ASIC w architekturach z przełączanym układem, ale w tych przypadkach nadal istnieje fizyczna warstwa obsługiwana przez wtykową optykę lub jakiś rodzaj miedzi. Biorąc pod uwagę, że ten sam kompleks ASIC może często obsługiwać wiele różnych wymagań dotyczących prędkości i mocy, nie ma sensu integrować tej funkcji w tym samym spinie?
rnxrx
W końcu zastąpiono wszystkie przełączniki po tym, jak zbyt wiele portów uległo degradacji do tego stopnia, że ​​nie można ich było używać. Wreszcie dobre wykorzystanie SmartNet!
ewwhite
2

Tak, pojedynczy port może być zły, ale o ile pamiętam, musisz wymienić cały moduł. (Zastrzeżenie: minęło sporo czasu, odkąd wykonałem znaczną pracę w Cisco ...)

Nie jestem pewien, czy to może pomóc, ale sprawdź FITB autorstwa Laurie Denness, jednego z inżynierów Ops w Etsy.

gWaldo
źródło