Dokumenty na temat usuwania błędów w systemach rozproszonych

10

Jakie dokumenty dotyczące obsługi błędów w systemach rozproszonych polecasz?

Alexandru
źródło
2
Nie znam tematu, ale czy nie jest ich zbyt wiele? Ponadto polecam na co?
Tsuyoshi Ito,
5
Pytanie wydaje się zbyt szerokie; Sądzę, że połowa wszystkich artykułów w informatyce rozproszonej jest w jakiś sposób związana z odpornością na uszkodzenia.
Jukka Suomela
2
zdecydowanie za szeroki. głosuj, aby zamknąć ...
Suresh Venkat
Może pytanie nie jest takie złe. Próbowałem polecić niektóre prace poniżej.
Dai Le
1
Pytanie byłoby lepsze, gdybyś pierwotnie podał te informacje jako motywację.
Dave Clarke

Odpowiedzi:

8

Warto przyjrzeć się pracom, które zdobyły nagrodę Tushara D. Chandry, Vassosa Hadzilacosa i Sama Touega Edsgera W. Dijkstry w 2010 roku :

Dokumenty te wprowadzają pojęcie detektorów awarii w systemie rozproszonym w ogólnych i precyzyjnych ramach. Intuicyjnie próbowano zbadać minimalną ilość informacji o awarii potrzebnych do rozwiązania konsensusu. Okazuje się, że nie potrzebujesz idealnego detektora awarii, aby rozwiązać konsensus. Do wykonania zadania wystarczą nawet zawodne detektory awarii spełniające określone minimalne warunki. Dokumenty te miały bardzo duży wpływ na sposób radzenia sobie z awariami w systemach rozproszonych.

Dai Le
źródło
3

Jakiego rodzaju usterki w systemie? Szukasz rozwiązań do obsługi błędów bizantyjskich czy tylko klasycznego modelu awaryjnego? Bardziej intrygującym problemem są rozwiązania w obecności bizantyjskich węzłów w systemie rozproszonym. Problem sformalizował Leslie Lamport (problem Bizancjum generałów), a artykuł z 1999 r. Barbary Liskov i Miguela Castro przedstawia najbliższe działające praktyczne rozwiązanie „Praktyczna bizantyjska tolerancja na uszkodzenia”. Oryginalne formalne modele radzenia sobie z odpornością na uszkodzenia obejmują stan podejście Freda Schneidera oparte na maszynie i replikacja ze znaczkiem widoku Zgadzam się, że pytanie jest bardzo ogólne, pole jest ogromne, a teoria stanowi podstawę większości systemów działających obecnie online. Może bardziej konkretny model błędów i dziedzina problemów pomogłyby uzyskać lepsze odpowiedzi

kryptos
źródło
3

Oto kolekcja wzorców postępowania z błędami obsługi w systemach rozproszonych:

Alternatywnie, dla bardziej ogólnych prac, jest książka Wprowadzenie do niezawodnego programowania rozproszonego autorstwa Rachid Guerraoui i Luisa Rodriguesa, która zawiera szeroki zakres praktycznych algorytmów, w tym wiele wariantów odzyskiwania po awarii. Bardziej klasyczny tekst Algorytmy rozproszone autorstwa Nancy Lynch obejmuje podobny grunt z bardziej teoretycznej perspektywy.

Dave Clarke
źródło