Nieszczęścia na kanale światłowodowym

52

Potrzebuję świeżej pary oczu.

Używamy 15-kilometrowej linii światłowodowej, przez którą multipleksowany jest kanał światłowodowy i 10GbE (pasywny optyczny CWDM). Dla FC mamy lasery dalekiego zasięgu odpowiednie do 40 km ( Skylane SFCxx0404F0D ). Multiplekser jest ograniczony przez SFP, które mogą wykonać max. Fibrechannel 4Gb. Przełącznik FC to seria Brocade 5000. Odpowiednie długości fal wynoszą 1550, 1570,1590 i 1610 nm dla FC i 1530 nm dla 10 GbE.

Problem polega na tym, że tkaniny 4GbFC prawie nigdy nie są czyste. Czasami są one przez pewien czas nawet przy dużym ruchu. Wtedy mogą nagle zacząć generować błędy (RX CRC, kodowanie RX, rozbieżność RX, ...) nawet przy niewielkim ruchu na nich. Dołączam niektóre wykresy błędów i ruchu. Błędy są obecnie rzędu 50-100 błędów na 5 minut przy ruchu 1 Gb / s.


Optyka

Oto podsumowana moc wyjściowa jednego portu (zebrana za pomocą sfpshowróżnych przełączników)

Jednostki SITE-A = uW (mikrowatt) SITE-B
**********************************************
FAB1
SW1 TX 1234.3 RX 49.1 SW3 1550nm (ko)
      RX 95,2 TX 1175,6
FAB2
SW2 TX 1422.0 RX 104,6 SW4 1610nm (ok)
      RX 54,3 TX 1468,4      

W tym momencie ciekawi mnie asymetria poziomów mocy. Podczas gdy SW2 nadaje 1422uW, które SW4 odbiera przy 104uW, SW2 odbiera sygnał SW4 o podobnej pierwotnej mocy tylko przy 54uW.

Odwrotnie dla SW1-3.

W każdym razie SFP mają czułość RX do -18dBm (ok. 20uW), więc w każdym razie powinno być dobrze ... Ale nic nie jest.

Niektóre SFP zostały zdiagnozowane przez producenta jako nieprawidłowe (1550 nm pokazano powyżej z „ko”). Te 1610 nm najwyraźniej są w porządku, zostały przetestowane przy użyciu generatora ruchu. Dzierżawiona linia została również przetestowana więcej niż raz. Wszystko mieści się w granicach tolerancji. Czekam na zamienniki, ale z jakiegoś powodu nie wierzę, że to poprawi sytuację, ponieważ pozornie dobre nie powodują błędów ZERO.

Wcześniej był zaangażowany aktywny sprzęt (pewien rodzaj retimeru 4GFC) przed umieszczeniem sygnału na linii. Nie mam pojęcia dlaczego. Ten sprzęt został wyeliminowany z powodu problemów, więc teraz mamy tylko:

  • laser dalekiego zasięgu w przełączniku,
  • (nowy) 10 m kabel monomodowy LC-SC do multipleksera (dla każdej tkaniny),
  • dzierżawiona linia,
  • to samo, ale odwrotnie po drugiej stronie linku.


Przełączniki FC

Oto konfiguracja portu z Brocade portcfgshow(oczywiście tak jest po obu stronach)

Numer obszaru: 0
Poziom prędkości: 4G
Fill Word (On Active) 0 (Idle-Idle)
Fill Word (Current) 0 (Idle-Idle)
AL_PA Przesunięcie 13: WYŁ
Port Trunk ON
Long Distance LS
VC Link Init OFF
Pożądana odległość 32 km
Zarezerwowane bufory 70
Zablokowany L_Port WYŁ
Zablokowany G_Port WYŁ
Wyłączone E_Port OFF
Zablokowany E_Port WYŁ
ISL R_RDY Tryb WYŁ
Wyłączony RSCN
Trwałe Wyłącz WYŁ
Włącz LOS TOV WYŁ
Możliwość NPIV WŁĄCZONA
QOS E_Port OFF
Automatyczne wyłączanie portu: WYŁ
Limit stawki WYŁ
EX Port OFF
Port lustra wyłączony
Odzyskiwanie kredytu WŁĄCZONE
Bufory F_Port wyłączone
Opóźnienie błędu: 0 (R_A_TOV)
Limit NPIV PP: 126
Tryb CSCTL: WYŁ

Wymuszanie linków do 2GbFC nie powoduje żadnych błędów, ale kupiliśmy 4GbFC i chcemy 4GbFC.

wykresy błędów i ruchu

Nie wiem już, gdzie szukać. Wszelkie pomysły, co wypróbować dalej lub jak kontynuować?

Jeśli nie możemy sprawić, by 4GbFC działało niezawodnie, zastanawiam się, co robią ludzie pracujący z 8 lub 16… Nie zakładam, że „kilka błędów tu i tam” jest do przyjęcia.

Aha i BTW, jesteśmy w kontakcie ze wszystkimi producentami (przełącznik FC, MUX, SFP, ...) Z wyjątkiem zmiany SFP (niektóre były zmieniane wcześniej) nikt nie ma pojęcia. Brocade SAN Health twierdzi, że tkanina jest w porządku. MUX, cóż, jest pasywny, to tylko pryzmat, natura w najlepszym wydaniu.

Jakieś strzały w ciemności?


DODATEK: Odpowiedzi na twoje pytania

@ Chopper3: Jest to druga generacja Brocades wykazująca problem. Wcześniej mieliśmy 5000, teraz mamy 5100. Na początku, kiedy jeszcze mieliśmy aktywne MUX, wypożyczyliśmy jeden raz laser długodystansowy, aby umieścić go bezpośrednio w przełączniku w celu wykonania testów na jeden dzień, w tym dniu był oczywiście czysty. Ale jak powiedziałem, czasami jest tak po prostu czyste. A czasem tak nie jest. Alternatywne przełączniki oznaczałyby przebudowanie całej sieci SAN za pomocą przełączników tylko do przetestowania. Alternatywne SFP, cóż, trudno jest po prostu tak po prostu dostać.

@longneck: Linia jest dzierżawiona. Jest to ciemne włókno (monomod 9um), więc nie ma na nim nikogo innego. Pewnie, że są spawy. Nie mogę iść i szukać, ale muszę ufać, że zostały wykonane poprawnie. Jak powiedziałem, linia została sprawdzona i ponownie sprawdzona (za pomocą optycznego reflektometru w dziedzinie czasu). Oczywiście nie masz tego całego sprzętu, ponieważ jest o wiele za drogi.

@mdpc: Jaki według Ciebie byłby „zły” typ kabla? Do przełącznika wszystko jest jednomodowe, tak. Złącza też są poprawne. Tak, wiem, że są zielone, w których światłowód jest odcinany pod pewnym kątem itp. Ale mamy odpowiednie dla wszystkiego, co wiem.


Raport z postępów nr 1

Mieliśmy dwie tkaniny (= 2x2 przełączniki) z Brocade 5100s z FabricOS 6.4.1 i dwie tkaniny (kolejne 2x4 przełączniki) w FabricOS 7.0.2.

Na ISL długodystansowych (po jednym w każdym materiale) okazało się, że przy ustawieniu FOS 6.4.1 na dalekie odległości pojawia się ostrzeżenie o ustawieniu VC Init, a tym samym słowie wypełnienia. Ale to tylko ostrzeżenia. FOS 7.0.2 wymaga modyfikacji VCI i słów kluczowych dla łączy długodystansowych.

Ustawienie FOS 6.4.1 na ustawienie LS (długodystansowa odległość statyczna) z niewłaściwym ustawieniem VCI i słowa-wypełnienia sprawiło, że cała tkanina nie działała (utknęła w pętli SCN, użyj, fabriclog -saby zobaczyć, nie widzisz jej nigdzie indziej, brak błędu portu liczniki lub cokolwiek rosnącego).

Obecnie daję jednej tkaninie z IMHO bardziej poprawnymi ustawieniami bicie i wydaje się, że dobrze sobie radzi, podczas gdy druga bez większego ruchu nadal ma błędy tu i tam.

postęp 1

W skrócie:

  • Wyeliminowaliśmy aktywną część MUX (retimer FC).
  • Umieszczamy SFP na duże odległości w samych urządzeniach końcowych.
  • Dla pewności kupiliśmy nowe kable monomodowe do podłączenia sprzętu końcowego do pozostałej pasywnej części MUX.
  • Próbujemy teraz kilku konfiguracji na duże odległości.

To prawie czarna magia. Wszystko, co się dzieje, jest głównie empiryczne, nikt nie ma pojęcia, jakie są dokładne powody, aby coś zrobić. („Próbowaliśmy tego i to nie działało, a następnie próbowaliśmy i działało, więc utknęliśmy z tym.” Ale nikt tak naprawdę nie wie, dlaczego.)

Będę Cie informować na bieżąco.


Raport z postępu prac nr 2

Otrzymaliśmy nowe lasery do jednego z materiałów objętych gwarancją. Jest ultra czysty nawet na 4GbFC.

Nadają z mocą około 2 mW (3dBm), podczas gdy inne mają tylko 1,5 mW (1,5 dBm), chociaż to naprawdę powinno wystarczyć.

Druga tkanina (gdzie lasery są najwyraźniej w porządku) nadal rzadko wytwarza jeden lub dwa CRC.

Korzystanie sfpshowz SFP generującego rzeczywiste błędy RX pokazuje

Status / Ctrl: 0x82
Flagi alarmów [0,1] = 0x5, 0x40
Ostrzegaj flagi [0,1] = 0x5, 0x40

Teraz będę musiał dowiedzieć się, co to znaczy. Nie jestem pewien, czy już tam był.

Cóż, najpierw oczyszczę głowę z tygodni wakacji. 8-)

Marki
źródło
8
Przede wszystkim świetne pytanie, do czego dokładnie służy ta strona, dobra robota. Po drugie, czy masz dostęp do alternatywnych przełączników / SFP - idealnie innej marki / modelu, który możesz zamienić w celu przetestowania?
Chopper3
4
Świetna aktualizacja, kontynuujcie dobrą robotę, szkoda, że ​​nie mam sugestii ani rad, ale jesteście na dobrej drodze, miło jest znaleźć nowego użytkownika na SF, który zna się na rzeczy :)
Chopper3
1
Czy są jakieś konsekwencje w czasie lub czasie trwania błędów? Czy zawsze występują o godzinie N? Czy zawsze trwają X minut? Czy możesz skorelować je z pogodą, pobliskimi wydarzeniami sportowymi lub innym zjawiskiem? Przerywane problemy są najtrudniejszymi błędami do zgniecenia i zwykle zaczynam je atakować, odczytując czasy i czasy ich występowania na tablicy. Mamy nadzieję, że pojawią się wzory, które można skorelować z innym zjawiskiem .
dotancohen
2
Czy śledzisz je na tablicy, widocznej dla wszystkich ? Nie będę naciskać, ale bardzo go polecam. Jak powiedziałeś, potrzebujesz świeżej pary oczu i być może ktoś w twojej organizacji zobaczy wzór pojawiający się z czasów / czasów trwania, i niekoniecznie z powodu objawów.
dotancohen
1
Cześć Marki. Nie jestem do końca zaznajomiony z tym, o czym mówisz, ale po ostatniej aktualizacji wygląda na to, że problem został rozwiązany przez zastępcze SFP? Jeśli tak, prawdopodobnie dobrym pomysłem jest opublikowanie tego jako odpowiedzi i zadanie nowego pytania, jeśli masz dalsze problemy.
Mark Henderson

Odpowiedzi:

4

Ok, chyba muszę opublikować odpowiedź. Jednym słowem jest to: nalegać .

Problem nie został rozwiązany w 100% według moich upodobań, ponieważ wciąż mamy jedną tkaninę z 1 (jednym) błędem CRC sporadycznie. Drugi jest czysty. Ale mogę z tym żyć.

W każdym razie nie będziemy nadal używać jednostek CWDM przez bardzo długi czas, ale raczej przestawimy się na pasywny multiplekser DWDM w przyszłym roku, ponieważ nasza infrastruktura bardzo się zmieni. Najwyraźniej lasery DWDM są również tańsze niż lasery CWDM. Och, zobaczymy i może będę miał wtedy wiele problemów, aby cię zapytać :-)


Zaktualizuj Nope do powyższego, ponownie kupiliśmy CWDM i jest naprawdę tańszy. AFAICS dla pewnych zastosowań jednak ty masz iść DWDM, ponieważ nie istnieją żadne lasery CWDM dla niego. W końcu próbowaliśmy zbliżyć się do producenta, jak tylko mogliśmy, a całość kosztowała około 1/5 ceny w porównaniu z zakupem od dystrybutora lub nawet integratora.


Mogę zatem stwierdzić, że jeśli kupiłeś rozwiązanie, które nie działa zgodnie z oczekiwaniami: nalegaj. Od strony technicznej zrobiliśmy dwie rzeczy

  • usuń aktywną część MUX (nie mogę powiedzieć, że tego żałuję, ale też nie jestem pewien, czy to w końcu było kolejnym źródłem błędu, czy nie)
  • dokładnie sprawdzać SFP

(I oczywiście wszystkie standardowe diagnostyki, zmieniaj jedną rzecz na raz, zobacz, co się stanie itp., Nie musisz ci tego mówić. Więc sprawdziliśmy również każdą linię i kabel itp., Niestety na nasz koszt.)

W tym przypadku naleganie zajęło dużo czasu, ale w końcu dotarliśmy do poziomu, w którym sam producent oszczędził kilka osób i trochę sprzętu do przeprowadzenia kontroli, które pomogły. I oczywiście zapłaciliśmy to integratorowi, ponieważ nasz sprzęt jest w trakcie konserwacji. Było to więc zarówno wyzwanie komercyjne, jak i techniczne.

PS. Aha, flagi, o których wspomniałem w mojej ostatniej aktualizacji, nie wskazywały nic złego, ale nie pamiętam, co dokładnie miały na myśli. Kiedy znajdę oświadczenie, zaktualizuję odpowiedź ze względu na kompletność.


W końcu flagi oznaczały przecież coś złego. Najwyraźniej jednak nie jest pewne, która strona linku jest przyczyną błędów. Tak więc ta para również musi zostać zmieniona.

Aha i BTW, nadajniki-odbiorniki DWDM 8GbFC są tylko tańsze w porównaniu do CWDM 8G ;-) Najtańszym sposobem jest 4GbFC na CWDM, a następnie użycie trunkingu ISL (jeśli masz licencję)

Marki
źródło
Niestety nie widziałem tego, kiedy o to pytano. Nie mogę ci powiedzieć na pewno, że to pomogłoby, ale jeśli używasz bezczynnych haseł, wysyłasz dużo światła. Oznacza to, że każda nieużywana ramka pobiera dużo energii i generuje dużo ciepła na SFP, tak myślę. Zmiana słowa kluczowego na inny tryb (używam trybu 3, ale mam inny przełącznik i SFP) może pozwolić na zwiększenie przepustowości przy mniejszej liczbie błędów.
Basil
@Basil Wiedziałem, że użycie poprawnego słowa kluczowego jest problemem dla synchronizacji słów w 8GFC, ale pomyślałem o tym w ten sposób ...
Marki
Jest zalecany za każdym razem, gdy możesz go użyć - o ile wiem, jest to pytanie, ile interferencji powoduje bezczynna ramka powodująca tworzenie SFP.
Basil,