Potrzebuję świeżej pary oczu.
Używamy 15-kilometrowej linii światłowodowej, przez którą multipleksowany jest kanał światłowodowy i 10GbE (pasywny optyczny CWDM). Dla FC mamy lasery dalekiego zasięgu odpowiednie do 40 km ( Skylane SFCxx0404F0D ). Multiplekser jest ograniczony przez SFP, które mogą wykonać max. Fibrechannel 4Gb. Przełącznik FC to seria Brocade 5000. Odpowiednie długości fal wynoszą 1550, 1570,1590 i 1610 nm dla FC i 1530 nm dla 10 GbE.
Problem polega na tym, że tkaniny 4GbFC prawie nigdy nie są czyste. Czasami są one przez pewien czas nawet przy dużym ruchu. Wtedy mogą nagle zacząć generować błędy (RX CRC, kodowanie RX, rozbieżność RX, ...) nawet przy niewielkim ruchu na nich. Dołączam niektóre wykresy błędów i ruchu. Błędy są obecnie rzędu 50-100 błędów na 5 minut przy ruchu 1 Gb / s.
Optyka
Oto podsumowana moc wyjściowa jednego portu (zebrana za pomocą sfpshow
różnych przełączników)
Jednostki SITE-A = uW (mikrowatt) SITE-B ********************************************** FAB1 SW1 TX 1234.3 RX 49.1 SW3 1550nm (ko) RX 95,2 TX 1175,6 FAB2 SW2 TX 1422.0 RX 104,6 SW4 1610nm (ok) RX 54,3 TX 1468,4
W tym momencie ciekawi mnie asymetria poziomów mocy. Podczas gdy SW2 nadaje 1422uW, które SW4 odbiera przy 104uW, SW2 odbiera sygnał SW4 o podobnej pierwotnej mocy tylko przy 54uW.
Odwrotnie dla SW1-3.
W każdym razie SFP mają czułość RX do -18dBm (ok. 20uW), więc w każdym razie powinno być dobrze ... Ale nic nie jest.
Niektóre SFP zostały zdiagnozowane przez producenta jako nieprawidłowe (1550 nm pokazano powyżej z „ko”). Te 1610 nm najwyraźniej są w porządku, zostały przetestowane przy użyciu generatora ruchu. Dzierżawiona linia została również przetestowana więcej niż raz. Wszystko mieści się w granicach tolerancji. Czekam na zamienniki, ale z jakiegoś powodu nie wierzę, że to poprawi sytuację, ponieważ pozornie dobre nie powodują błędów ZERO.
Wcześniej był zaangażowany aktywny sprzęt (pewien rodzaj retimeru 4GFC) przed umieszczeniem sygnału na linii. Nie mam pojęcia dlaczego. Ten sprzęt został wyeliminowany z powodu problemów, więc teraz mamy tylko:
- laser dalekiego zasięgu w przełączniku,
- (nowy) 10 m kabel monomodowy LC-SC do multipleksera (dla każdej tkaniny),
- dzierżawiona linia,
- to samo, ale odwrotnie po drugiej stronie linku.
Przełączniki FC
Oto konfiguracja portu z Brocade portcfgshow
(oczywiście tak jest po obu stronach)
Numer obszaru: 0 Poziom prędkości: 4G Fill Word (On Active) 0 (Idle-Idle) Fill Word (Current) 0 (Idle-Idle) AL_PA Przesunięcie 13: WYŁ Port Trunk ON Long Distance LS VC Link Init OFF Pożądana odległość 32 km Zarezerwowane bufory 70 Zablokowany L_Port WYŁ Zablokowany G_Port WYŁ Wyłączone E_Port OFF Zablokowany E_Port WYŁ ISL R_RDY Tryb WYŁ Wyłączony RSCN Trwałe Wyłącz WYŁ Włącz LOS TOV WYŁ Możliwość NPIV WŁĄCZONA QOS E_Port OFF Automatyczne wyłączanie portu: WYŁ Limit stawki WYŁ EX Port OFF Port lustra wyłączony Odzyskiwanie kredytu WŁĄCZONE Bufory F_Port wyłączone Opóźnienie błędu: 0 (R_A_TOV) Limit NPIV PP: 126 Tryb CSCTL: WYŁ
Wymuszanie linków do 2GbFC nie powoduje żadnych błędów, ale kupiliśmy 4GbFC i chcemy 4GbFC.
Nie wiem już, gdzie szukać. Wszelkie pomysły, co wypróbować dalej lub jak kontynuować?
Jeśli nie możemy sprawić, by 4GbFC działało niezawodnie, zastanawiam się, co robią ludzie pracujący z 8 lub 16… Nie zakładam, że „kilka błędów tu i tam” jest do przyjęcia.
Aha i BTW, jesteśmy w kontakcie ze wszystkimi producentami (przełącznik FC, MUX, SFP, ...) Z wyjątkiem zmiany SFP (niektóre były zmieniane wcześniej) nikt nie ma pojęcia. Brocade SAN Health twierdzi, że tkanina jest w porządku. MUX, cóż, jest pasywny, to tylko pryzmat, natura w najlepszym wydaniu.
Jakieś strzały w ciemności?
DODATEK: Odpowiedzi na twoje pytania
@ Chopper3: Jest to druga generacja Brocades wykazująca problem. Wcześniej mieliśmy 5000, teraz mamy 5100. Na początku, kiedy jeszcze mieliśmy aktywne MUX, wypożyczyliśmy jeden raz laser długodystansowy, aby umieścić go bezpośrednio w przełączniku w celu wykonania testów na jeden dzień, w tym dniu był oczywiście czysty. Ale jak powiedziałem, czasami jest tak po prostu czyste. A czasem tak nie jest. Alternatywne przełączniki oznaczałyby przebudowanie całej sieci SAN za pomocą przełączników tylko do przetestowania. Alternatywne SFP, cóż, trudno jest po prostu tak po prostu dostać.
@longneck: Linia jest dzierżawiona. Jest to ciemne włókno (monomod 9um), więc nie ma na nim nikogo innego. Pewnie, że są spawy. Nie mogę iść i szukać, ale muszę ufać, że zostały wykonane poprawnie. Jak powiedziałem, linia została sprawdzona i ponownie sprawdzona (za pomocą optycznego reflektometru w dziedzinie czasu). Oczywiście nie masz tego całego sprzętu, ponieważ jest o wiele za drogi.
@mdpc: Jaki według Ciebie byłby „zły” typ kabla? Do przełącznika wszystko jest jednomodowe, tak. Złącza też są poprawne. Tak, wiem, że są zielone, w których światłowód jest odcinany pod pewnym kątem itp. Ale mamy odpowiednie dla wszystkiego, co wiem.
Raport z postępów nr 1
Mieliśmy dwie tkaniny (= 2x2 przełączniki) z Brocade 5100s z FabricOS 6.4.1 i dwie tkaniny (kolejne 2x4 przełączniki) w FabricOS 7.0.2.
Na ISL długodystansowych (po jednym w każdym materiale) okazało się, że przy ustawieniu FOS 6.4.1 na dalekie odległości pojawia się ostrzeżenie o ustawieniu VC Init, a tym samym słowie wypełnienia. Ale to tylko ostrzeżenia. FOS 7.0.2 wymaga modyfikacji VCI i słów kluczowych dla łączy długodystansowych.
Ustawienie FOS 6.4.1 na ustawienie LS (długodystansowa odległość statyczna) z niewłaściwym ustawieniem VCI i słowa-wypełnienia sprawiło, że cała tkanina nie działała (utknęła w pętli SCN, użyj, fabriclog -s
aby zobaczyć, nie widzisz jej nigdzie indziej, brak błędu portu liczniki lub cokolwiek rosnącego).
Obecnie daję jednej tkaninie z IMHO bardziej poprawnymi ustawieniami bicie i wydaje się, że dobrze sobie radzi, podczas gdy druga bez większego ruchu nadal ma błędy tu i tam.
W skrócie:
- Wyeliminowaliśmy aktywną część MUX (retimer FC).
- Umieszczamy SFP na duże odległości w samych urządzeniach końcowych.
- Dla pewności kupiliśmy nowe kable monomodowe do podłączenia sprzętu końcowego do pozostałej pasywnej części MUX.
- Próbujemy teraz kilku konfiguracji na duże odległości.
To prawie czarna magia. Wszystko, co się dzieje, jest głównie empiryczne, nikt nie ma pojęcia, jakie są dokładne powody, aby coś zrobić. („Próbowaliśmy tego i to nie działało, a następnie próbowaliśmy i działało, więc utknęliśmy z tym.” Ale nikt tak naprawdę nie wie, dlaczego.)
Będę Cie informować na bieżąco.
Raport z postępu prac nr 2
Otrzymaliśmy nowe lasery do jednego z materiałów objętych gwarancją. Jest ultra czysty nawet na 4GbFC.
Nadają z mocą około 2 mW (3dBm), podczas gdy inne mają tylko 1,5 mW (1,5 dBm), chociaż to naprawdę powinno wystarczyć.
Druga tkanina (gdzie lasery są najwyraźniej w porządku) nadal rzadko wytwarza jeden lub dwa CRC.
Korzystanie sfpshow
z SFP generującego rzeczywiste błędy RX pokazuje
Status / Ctrl: 0x82 Flagi alarmów [0,1] = 0x5, 0x40 Ostrzegaj flagi [0,1] = 0x5, 0x40
Teraz będę musiał dowiedzieć się, co to znaczy. Nie jestem pewien, czy już tam był.
Cóż, najpierw oczyszczę głowę z tygodni wakacji. 8-)
źródło
Odpowiedzi:
Ok, chyba muszę opublikować odpowiedź. Jednym słowem jest to: nalegać .
Problem nie został rozwiązany w 100% według moich upodobań, ponieważ wciąż mamy jedną tkaninę z 1 (jednym) błędem CRC sporadycznie. Drugi jest czysty. Ale mogę z tym żyć.
W każdym razie nie będziemy nadal używać jednostek CWDM przez bardzo długi czas, ale raczej przestawimy się na pasywny multiplekser DWDM w przyszłym roku, ponieważ nasza infrastruktura bardzo się zmieni. Najwyraźniej lasery DWDM są również tańsze niż lasery CWDM. Och, zobaczymy i może będę miał wtedy wiele problemów, aby cię zapytać :-)
Zaktualizuj Nope do powyższego, ponownie kupiliśmy CWDM i jest naprawdę tańszy. AFAICS dla pewnych zastosowań jednak ty masz iść DWDM, ponieważ nie istnieją żadne lasery CWDM dla niego. W końcu próbowaliśmy zbliżyć się do producenta, jak tylko mogliśmy, a całość kosztowała około 1/5 ceny w porównaniu z zakupem od dystrybutora lub nawet integratora.
Mogę zatem stwierdzić, że jeśli kupiłeś rozwiązanie, które nie działa zgodnie z oczekiwaniami: nalegaj. Od strony technicznej zrobiliśmy dwie rzeczy
(I oczywiście wszystkie standardowe diagnostyki, zmieniaj jedną rzecz na raz, zobacz, co się stanie itp., Nie musisz ci tego mówić. Więc sprawdziliśmy również każdą linię i kabel itp., Niestety na nasz koszt.)
W tym przypadku naleganie zajęło dużo czasu, ale w końcu dotarliśmy do poziomu, w którym sam producent oszczędził kilka osób i trochę sprzętu do przeprowadzenia kontroli, które pomogły. I oczywiście zapłaciliśmy to integratorowi, ponieważ nasz sprzęt jest w trakcie konserwacji. Było to więc zarówno wyzwanie komercyjne, jak i techniczne.
PS. Aha, flagi, o których wspomniałem w mojej ostatniej aktualizacji, nie wskazywały nic złego, ale nie pamiętam, co dokładnie miały na myśli. Kiedy znajdę oświadczenie, zaktualizuję odpowiedź ze względu na kompletność.
W końcu flagi oznaczały przecież coś złego. Najwyraźniej jednak nie jest pewne, która strona linku jest przyczyną błędów. Tak więc ta para również musi zostać zmieniona.
Aha i BTW, nadajniki-odbiorniki DWDM 8GbFC są tylko tańsze w porównaniu do CWDM 8G ;-) Najtańszym sposobem jest 4GbFC na CWDM, a następnie użycie trunkingu ISL (jeśli masz licencję)
źródło