W ciągu ostatnich kilku dni ścigałem problem utraty pakietów i stabilności sieci dla garstki użytkowników końcowych w sieci wewnętrznej ... Te problemy pojawiły się w zeszłym tygodniu, ale lokalizacja została uderzona piorunem sześć tygodni temu.
Widziałem 5-10% utraty pakietów między stosem czterech Cisco 2960 a kilkoma komputerami i telefonami po drugiej stronie 77-metrowego biegu. Komputery PC były uruchamiane w linii z telefonami za pośrednictwem łącza trunkingowego ( pastebin konfiguracji przełączania ). Obserwowaliśmy przerywane połączenia i przerwy w aplikacjach klient-serwer i łączność z Microsoft Exchange.
Próbowałem zdalnie wykonać zwykłe kroki rozwiązywania problemów, zlecając lokalnym technikom wykonanie następujących czynności podczas przerw w pracy użytkownika i produkcji:
- zamień kable między gniazdkiem ściennym a urządzeniem.
- zmienić kable krosowe między panelem krosowym a portami przełącznika.
- wypróbuj różne porty przełącznika w stosie 2960.
- zmieniać urządzenia użytkowników końcowych za pomocą dobrze znanego sprzętu (nowe telefony, różne komputery).
- wyczyść liczniki interfejsu portu przełącznika i uważnie monitoruj błędy zwiększania. ( Wyjście Pastebin z
sh int
) - Pored na dziennikach urządzenia i wykresach RRD Observium . Brak problemów w górę / w dół łącza po stronie przełącznika.
- zmienić listwy zasilające po stronie użytkownika końcowego.
- kabel testowy działa z Cisco 2960 przy użyciu
test cable-diagnostics tdr int Gi4/0/9
(czystego) * - kabel testowy działa z testerem kabli Tripp-Lite. (czysty)
- uruchom diagnostykę na elementach stosu przełączników. (czysty)
Ostatecznie zajęło trzy zmiany portów przełącznika, aby znaleźć stabilne rozwiązanie. Jedynym logicznym wnioskiem jest to, że kilka portów przełącznika Cisco 2960 jest wadliwych lub niestabilnych ... Nie martwy, ale też niespójny w działaniu. Nie jestem przyzwyczajony do tego, że poszczególne porty umierają w ten sposób.
Co jeszcze mogę przetestować lub sprawdzić, aby stwierdzić, czy te urządzenia są złe?
Jakie jest najlepsze podejście do weryfikacji tego?
Czy zdarza się, że pojedyncze porty mają problemy, a nie ciągły bank portów?
BTW - show cable-diagnostics tdr int Gi4/0/14
jest bardzo fajny ...
Interface Speed Local pair Pair length Remote pair Pair status
--------- ----- ---------- ------------------ ----------- --------------------
Gi4/0/14 1000M Pair A 79 +/- 0 meters Pair B Normal
Pair B 75 +/- 0 meters Pair A Normal
Pair C 77 +/- 0 meters Pair D Normal
Pair D 79 +/- 0 meters Pair C Normal
źródło
Total output drops: 1461
Odpowiedzi:
Podczas gdy banki portów często korzystają z ASIC, każdy musi mieć własną osobną PHY. Jeśli PHY ulegnie uszkodzeniu, może mieć bardzo problem, podczas gdy jego sąsiedzi nie.
To powiedziawszy, spadki wydajności są dziwnym objawem fizycznego problemu - nie niemożliwe, ale nie typowe. Niezależnie od łączy półdupleksowych, spadki wyjściowe zwykle mają więcej wspólnego z wyczerpaniem bufora niż problemami fizycznymi.
Możesz uzyskać więcej informacji, ustawiając przechwytywanie pakietów po drugiej stronie drutu. Zła PHY powinna się objawiać z pewną liczbą błędów warstwy fizycznej (złe CRC, runt / gigant itp.) Po jednej lub obu stronach łącza.
Podsumowując, brzmi to tak, jakbyś wyeliminował na tyle, że może przekroczyć granicę malejących zysków. Polecam RMA, jeśli masz umowę.
źródło
Tak, pojedynczy port może być zły, ale o ile pamiętam, musisz wymienić cały moduł. (Zastrzeżenie: minęło sporo czasu, odkąd wykonałem znaczną pracę w Cisco ...)
Nie jestem pewien, czy to może pomóc, ale sprawdź FITB autorstwa Laurie Denness, jednego z inżynierów Ops w Etsy.
źródło