Witajcie, mieszkańcy błędu serwera
Mam irytujący problem z siecią LAN złożoną z około 100 komputerów, 2 serwerów domeny Windows i 12 telefonów VoIP. Od czasu ich instalacji około rok temu, mniej więcej co tydzień, telefon VoIP resetuje się sam - czasami w trakcie rozmowy. Jednocześnie często występują oznaki tymczasowej utraty połączenia na komputerach: zawiesza się w Eksploratorze podczas uzyskiwania dostępu do udziałów sieciowych, błędy w naszym oprogramowaniu administracyjnym z powodu utraty połączenia z serwerem bazy danych.
Przeprowadziłem pewne monitorowanie Wireshark na temat połączenia między VoIP PBX a resztą sieci. Wireshark zbiera kępkę retransmitowanych pakietów TCP w momencie, gdy rejestrujemy restart telefonu. Dziennik Wireshark pokazuje około 2 klastry retransmisji dziennie, od 5 pakietów do setek. Te w każdym klastrze znajdują się głównie między PBX a niektórymi zestawami telefonów VoIP, ale nie zawsze ten sam zestaw. Często retransmisje w tym samym czasie dotyczą telefonów podłączonych do tego samego przełącznika, ale czasami retransmisje odbywają się razem na telefony na przeciwległych końcach sieci. Zazwyczaj występują pewne retransmisje podczas przekazywania ruchu TCP, na przykład między komputerami klienckimi a serwerami plików.
Skoki retransmisji i resetowania telefonu nie korelują dobrze z dużym obciążeniem sieci. Wydaje się, że występują one nieco częściej w ciągu dnia, ale najczęściej wieczorem, kiedy ruch powinien się zmniejszać. Występują one dość często późno w nocy, gdy większość komputerów jest wyłączona, a ruch powinien być najniższy.
Czy masz jakieś pomysły, które mogą pomóc zdiagnozować przyczynę takich problemów? Jedną z rzeczy, których jeszcze nie próbowałem, ale powinienem, jest aktualizacja oprogramowania układowego wszystkich przełączników.
źródło
Odpowiedzi:
Retransmisje TCP są zwykle spowodowane przeciążeniem sieci. Poszukaj dużej liczby pakietów rozgłoszeniowych w momencie wystąpienia problemu. Jeśli procent ruchu rozgłoszeniowego w twoim przechwytywaniu przekracza około 3% całkowitego przechwyconego ruchu, to na pewno masz zatory. Poszukaj emisji w warstwie fizycznej (ARP) i sieciowej (rozpoznawanie nazw) w sieci. Jeśli znajdziesz duży ruch rozgłoszeniowy, możesz prześledzić go do źródła z danych przechwytywania.
źródło
arp
- i aby zobaczyć tylko te nadawane, używając filtraeth.addr==ff:ff:ff:ff:ff:ff
Gromadzenie statystyk ruchu dla przełączników może wskazywać, że masz okresy, w których biegasz z wydajnością lub w jej pobliżu. Może to prowadzić do ponownych prób, gdy odpowiedzi nie powrócą w początkowym limicie czasu (często 3 sekundy). Zwiększa to chwilowo zatory do momentu uruchomienia mechanizmów łagodzenia zatorów.
Szukaj osób korzystających z mediów strumieniowych, ponieważ mogą one szybko wchłonąć pasmo.
Możesz być w stanie złagodzić problem z telefonami poprzez kształtowanie ruchu. To po prostu przeniesie problem na innych użytkowników.
źródło
Brzmi dla mnie jak pętla drzewa rozpinającego się lub burza rozgłoszeniowa, szczególnie jeśli retransmisje i problemy są zlokalizowane na tym samym przełączniku (który różni się). Kiedy to się stanie, jakie są stany portów w urządzeniu L2? Prawdopodobnie zły przełącznik lub złe priorytety mostu głównego? Ciekawy problem.
źródło
Prawdopodobnie rozwiązałeś ten problem, ponieważ był on tak długi, ale zasadniczo musisz włączyć „szybkie portowanie” na portach, które mają punkty końcowe (telefony VoIP, stacje robocze, serwery). Telefon może wysyłać PDU, więc jeśli ten facet uruchomi się ponownie, spowoduje to konwergencję STP, co spowoduje opróżnienie tabeli FDB i przejście wszystkich urządzeń przez STP 4/5. Ustawiając porty z punktem końcowym na „szybki port”, pomijają oczekiwanie i przechodzą od razu do trybu przesyłania.
źródło
Mam nadzieję, że twoje telefony znajdują się w innej podsieci i sieci VLAN niż inne komputery?
źródło
Może to być również wadliwy element wyposażenia, taki jak wadliwy przełącznik. Czy retransmisje są skorelowane z telefonami / komputerami na jednym przełączniku lub części sieci?
Żeby trochę rozszerzyć moją odpowiedź. Nie wszystkie przełączniki są sobie równe, nawet jeśli mają te same specyfikacje. Niektóre są w stanie poradzić sobie ze znacznie większym obciążeniem niż inne, ponieważ mają szybsze procesory. Możliwe, że twoje przełączniki nie są wystarczająco dobre.
Zacznę od umieszczenia niektórych z najbardziej kłopotliwych telefonów VOIP na ich własnych przełącznikach fizycznych i zobaczę, czy resetowanie na nich będzie kontynuowane. Jeśli zniknie, jesteś na najlepszej drodze do rozwiązania tego problemu.
źródło