Istnieją dwa główne typy awarii procesorów w modelach przetwarzania rozproszonego:
(1) Awarie awarii: procesor zatrzymuje się i nigdy nie uruchamia się ponownie. (2) Awarie bizantyjskie: procesory zachowują się przeciwnie, złośliwie.
Moje pytanie brzmi:
Jakie inne rodzaje awarii procesorów, które zostały zbadane, które nie ograniczają się do awarii lub awarii bizantyjskich?
Również bardziej szczegółowe pytanie:
Czy zbadano model, w którym z pewnym prawdopodobieństwem proces jest włączony w kroku czasu , a poza tym wyłączony? Tak więc każdy proces mruga, jakby był.
Najbardziej interesuje mnie to, jak te niepowodzenia odnoszą się do konsensusu i innych problemów związanych z porozumieniem rozproszonym.
Dziękuję Ci.
reference-request
dc.distributed-comp
Aaron Sterling
źródło
źródło
Odpowiedzi:
Skopiowano z komentarzy do pytania jako na żądanie.
Teorię obliczeń rozproszonych przyjąłem z Michelem Raynalem i opisał trzeci model, w którym wiadomości mogą być upuszczane losowo. W tym modelu komunikat może nie zostać dostarczony w trybie cichym, ale nie musi to oznaczać awarii węzła. Chodzi raczej o awarie łącza niż o awarie węzła „model dość stratnego kanału”, możesz przeczytać więcej o tym tutaj: Quiescent Uniform Reliable Broadcast jako ankieta wprowadzająca do wykrywaczy awarii - Michel Raynal (ftp.irisa.fr/techreports/2000/ PI-1356.ps.gz)
źródło
Ze względu na wysokie koszty zasobów związane z bizantyjską odpornością na uszkodzenia, oczywiście przeanalizowano modele awarii z coraz silniejszymi założeniami, szczególnie w odniesieniu do wymagań dotyczących zasobów, aby tolerować uszkodzenia typu ograniczonego. ( Azadmanesh i Kieckhafer, 2002 ) zapewniają bardzo ładną taksonomię (patrz ryc. 1)
Innym sposobem na modelowanie założeń trybu awarii jest odejście od punktu widzenia zorientowanego na węzeł, w którym utrata wiadomości jest modelowana jako wina nadawcy, w kierunku modelu uszkodzenia łącza, który jest tylko podwójnym widokiem, po niespójnościach, które mogą powodować system jest brany pod uwagę. Model ten został zbadany przez ( Schmid, Weiss i Rushby, 2002 ), omijając wynik niemożliwości ( Grey, 1978 ), pokazując deterministyczne rozwiązanie problemu skoordynowanego ataku w przypadku błędów łącza.
źródło
Nie wiem czy @M. Alaggan mówił o tego rodzaju błędach, ale z pewnością wyglądają podobnie: usterki przejściowe.
W modelu DVFS , w którym można zmodyfikować częstotliwość i napięcie w celu zmniejszenia zużycia energii, Zhu i Aydin w tym artykule (pdf) zastosowali model błędu dla DVFS. Rozważają przejściowe awarie, które są na przykład błędami spowodowanymi błędami oprogramowania. Unieważniają one tylko wykonanie bieżącego zadania, a procesor będący przedmiotem tej awarii będzie mógł odzyskać i wykonać kolejne przypisane mu zadanie (jeśli takie istnieje).
Przepraszam, że opublikowałem to tak długo po oryginalnym poście, ale znalazłem to pytanie, ponieważ pracowałem nad tym tematem :). Gdy nie badamy DVFS, błędy te nadal istnieją, formuły prawdopodobnie nadal są poprawne (lub można je dostosować). Więcej informacji na temat awarii przejściowych bez DVFS można znaleźć tutaj .
źródło
Jeśli chodzi o wspomniane już modele niepowodzenia zaniechania, przyjrzeliśmy się NeigerToueg , który rozważa różne ich rodzaje.
To brzmi jak model odzyskiwania po awarii. Nie znam żadnego modelu, w którym procesy są probabilistycznie włączane / wyłączane. Istnieją również warianty, w których procesy są bizantyjskie przez pewien czas, a następnie odzyskują, w miarę upływu czasu wszystkie procesy mogą być bizantyjskie (choć w większości brane pod uwagę w przypadku synchronizacji zegara).
Zauważ, że jeśli będąc wyłączonym masz na myśli, że proces nie tylko robi postępy (nie traci swojego stanu, a wiadomości nie są tracone z powodu wyłączenia odbiornika), to to, na co patrzysz, jest określane jako asynchroniczne system. W kontekście pamięci współużytkowanej twoje pytanie może być zatem ściśle powiązane z tym dokumentem Aspnesa .
źródło
Mogą istnieć inne rodzaje awarii. Na przykład niektóre procesory (np. W ramach protokołów rozgłoszeniowych lub multiemisji) mogą zostać przeciążone i nie będą mogły przetworzyć wszystkich przychodzących wiadomości. Powoduje to, że procesor pojawia się offline dla niektórych procesorów w systemie rozproszonym.
źródło