Znalezienie przyczyny retransmisji TCP w sieci LAN

25

Witajcie, mieszkańcy błędu serwera

Mam irytujący problem z siecią LAN złożoną z około 100 komputerów, 2 serwerów domeny Windows i 12 telefonów VoIP. Od czasu ich instalacji około rok temu, mniej więcej co tydzień, telefon VoIP resetuje się sam - czasami w trakcie rozmowy. Jednocześnie często występują oznaki tymczasowej utraty połączenia na komputerach: zawiesza się w Eksploratorze podczas uzyskiwania dostępu do udziałów sieciowych, błędy w naszym oprogramowaniu administracyjnym z powodu utraty połączenia z serwerem bazy danych.

Przeprowadziłem pewne monitorowanie Wireshark na temat połączenia między VoIP PBX a resztą sieci. Wireshark zbiera kępkę retransmitowanych pakietów TCP w momencie, gdy rejestrujemy restart telefonu. Dziennik Wireshark pokazuje około 2 klastry retransmisji dziennie, od 5 pakietów do setek. Te w każdym klastrze znajdują się głównie między PBX a niektórymi zestawami telefonów VoIP, ale nie zawsze ten sam zestaw. Często retransmisje w tym samym czasie dotyczą telefonów podłączonych do tego samego przełącznika, ale czasami retransmisje odbywają się razem na telefony na przeciwległych końcach sieci. Zazwyczaj występują pewne retransmisje podczas przekazywania ruchu TCP, na przykład między komputerami klienckimi a serwerami plików.

Skoki retransmisji i resetowania telefonu nie korelują dobrze z dużym obciążeniem sieci. Wydaje się, że występują one nieco częściej w ciągu dnia, ale najczęściej wieczorem, kiedy ruch powinien się zmniejszać. Występują one dość często późno w nocy, gdy większość komputerów jest wyłączona, a ruch powinien być najniższy.

Czy masz jakieś pomysły, które mogą pomóc zdiagnozować przyczynę takich problemów? Jedną z rzeczy, których jeszcze nie próbowałem, ale powinienem, jest aktualizacja oprogramowania układowego wszystkich przełączników.

Surrealistyczne
źródło
1
Jaki model przełącza? Jak wyglądają statystyki procesora, pamięci itp.? Czy jesteś w jednej domenie rozgłoszeniowej? jak blisko maksymalnej przepustowości widzisz w sieci?
Zypher
Z jakiego protokołu VoIP korzystasz? Ponadto, używając UDP lub TCP?
Chris S,
Wszystkie przełączniki to 3Com: Baseline 2924 - PWR Plus (3CBLSG24PWR) x 2, 4200 (3C17304A) x 3, 4200 (3C17304) x 2, 2824-SPF Plus (3C16487), 2250 plus (3C16476CS). Nie sądzę, aby podawały statystyki dotyczące procesora lub pamięci, ale z przyjemnością dowiem się czegoś innego. Tak, jesteśmy w jednej domenie rozgłoszeniowej. Nie wiem o przepustowości, spróbuję ją zmierzyć.
Surreal

Odpowiedzi:

17

Retransmisje TCP są zwykle spowodowane przeciążeniem sieci. Poszukaj dużej liczby pakietów rozgłoszeniowych w momencie wystąpienia problemu. Jeśli procent ruchu rozgłoszeniowego w twoim przechwytywaniu przekracza około 3% całkowitego przechwyconego ruchu, to na pewno masz zatory. Poszukaj emisji w warstwie fizycznej (ARP) i sieciowej (rozpoznawanie nazw) w sieci. Jeśli znajdziesz duży ruch rozgłoszeniowy, możesz prześledzić go do źródła z danych przechwytywania.

joeqwerty
źródło
9
Ponadto retransmisje TCP nie są przyczyną problemu, są objawem problemu.
joeqwerty
Powinienem wspomnieć, że rzuciłem okiem na transmisje UDP i nie korelowały one z retransmisjami. Niektóre zdarzenia retransmisji pokrywają się ze skokami emisji UDP, ale większość nie. Po raz kolejny zauważyłem, że transmisje UDP nie przekraczają 1,5% ruchu (około 350 pakietów) w dowolnym 10-minutowym segmencie czasu, a osiągnięcie tego poziomu jest rzadkie. Jednak nie patrzyłem na transmisje Ethernet. Teraz uruchamiam skrypt do filtrowania wszystkich dzienników Wireshark. Czy stosowana jest zasada 3% dla transmisji UDP i transmisji Ethernet indywidualnie czy łącznie?
Surreal
1
3% nie jest tak naprawdę regułą. Tak mi powiedziano i co widziałem we własnym środowisku. Słyszałem liczby od 10 do 20%, ale odkryłem, że gdy przekroczy 3 do 5%, zwykle powoduje problemy. Musisz spojrzeć na cały ruch rozgłoszeniowy: transmisje Ethernet, sieciowe i multiemisyjne, ponieważ wszystkie one mogą powodować zatory. Zasadniczo każdy ruch, który jest rozgłaszany do wszystkich portów przełącznika, to ruch, który należy przeanalizować i ograniczyć lub wyeliminować.
joeqwerty
Nadal nie mam ładnego wykresu, aby sprawdzić dobrą korelację przez długi czas, ale transmisje ethernetowe wyglądają dość obiecująco. Jeden dziennik, w którym była retransmisja, miał nieco ponad 3% emisji, inny około 6%. Znalazłem co najmniej jeden problem: stary serwer wysyła ciągły strumień darmowych pakietów ARP.
Surreal
1
Znalazłem nadmierne wpisy ARP za pomocą filtra Wireshark z arp- i aby zobaczyć tylko te nadawane, używając filtraeth.addr==ff:ff:ff:ff:ff:ff
mlhDev
2

Gromadzenie statystyk ruchu dla przełączników może wskazywać, że masz okresy, w których biegasz z wydajnością lub w jej pobliżu. Może to prowadzić do ponownych prób, gdy odpowiedzi nie powrócą w początkowym limicie czasu (często 3 sekundy). Zwiększa to chwilowo zatory do momentu uruchomienia mechanizmów łagodzenia zatorów.

Szukaj osób korzystających z mediów strumieniowych, ponieważ mogą one szybko wchłonąć pasmo.

Możesz być w stanie złagodzić problem z telefonami poprzez kształtowanie ruchu. To po prostu przeniesie problem na innych użytkowników.

BillThor
źródło
2

Brzmi dla mnie jak pętla drzewa rozpinającego się lub burza rozgłoszeniowa, szczególnie jeśli retransmisje i problemy są zlokalizowane na tym samym przełączniku (który różni się). Kiedy to się stanie, jakie są stany portów w urządzeniu L2? Prawdopodobnie zły przełącznik lub złe priorytety mostu głównego? Ciekawy problem.

McJeff
źródło
Dziękuję, że zachęciłeś mnie do przeczytania o drzewach opinających, o których jestem zawstydzająco nieświadomy. Jednak nie sądzę, że może to być pętla drzewa opinającego, ponieważ nie mamy żadnych redundantnych łączy w naszej sieci (być może problem sam w sobie). Przez „stany portów w urządzeniu L2” mam rację, które porty zostały włączone przez przełączniki w wyniku algorytmu drzewa opinającego? Nie skonfigurowaliśmy ręcznie mostu głównego, czy byłoby to dobrym pomysłem?
Surreal
Zapoznanie się z STP jest dobrym pomysłem, ale jeśli masz pewność, że nie masz żadnych zbędnych linków, STP nie będzie problemem.
joeqwerty
Tak, jeśli nie masz zbędnych linków, nie byłoby problemu. Przez stany portu, tak, mam na myśli, które są przekazywane / blokowane / uczą się.
McJeff,
2

Prawdopodobnie rozwiązałeś ten problem, ponieważ był on tak długi, ale zasadniczo musisz włączyć „szybkie portowanie” na portach, które mają punkty końcowe (telefony VoIP, stacje robocze, serwery). Telefon może wysyłać PDU, więc jeśli ten facet uruchomi się ponownie, spowoduje to konwergencję STP, co spowoduje opróżnienie tabeli FDB i przejście wszystkich urządzeń przez STP 4/5. Ustawiając porty z punktem końcowym na „szybki port”, pomijają oczekiwanie i przechodzą od razu do trybu przesyłania.

Barak S.
źródło
1

Mam nadzieję, że twoje telefony znajdują się w innej podsieci i sieci VLAN niż inne komputery?

Greg Askew
źródło
Nie, znajdują się w tej samej podsieci IP i jestem pewien, że również w tej samej sieci VLAN. Czy to poważny problem? Z pewnością brzmi, jakby to był dobry pomysł. Widzę, że oddzieliłoby to domeny emisji dla telefonów i wszystkiego innego. Czy miałoby to inne zalety?
Surreal
Tak, zdecydowanie postawiłbym telefony na dedykowanej sieci VLAN.
Greg Askew
1

Może to być również wadliwy element wyposażenia, taki jak wadliwy przełącznik. Czy retransmisje są skorelowane z telefonami / komputerami na jednym przełączniku lub części sieci?

Żeby trochę rozszerzyć moją odpowiedź. Nie wszystkie przełączniki są sobie równe, nawet jeśli mają te same specyfikacje. Niektóre są w stanie poradzić sobie ze znacznie większym obciążeniem niż inne, ponieważ mają szybsze procesory. Możliwe, że twoje przełączniki nie są wystarczająco dobre.

Zacznę od umieszczenia niektórych z najbardziej kłopotliwych telefonów VOIP na ich własnych przełącznikach fizycznych i zobaczę, czy resetowanie na nich będzie kontynuowane. Jeśli zniknie, jesteś na najlepszej drodze do rozwiązania tego problemu.

Matt
źródło
Chciałbym, żeby tak było. Wydaje się, że najbardziej problematyczne są urządzenia podłączone do dwóch przełączników, które znajdują się na przeciwległych końcach sieci. Istnieją jednak znaczące retransmisje do telefonów również w innych częściach sieci.
Surreal