Różnica między wartością zewnętrzną a wartością początkową

10

Natknąłem się na pojęcie inlier w metodzie LOF (Local Outlier Factor), znam pojęcie wartości odstających (cóż w zasadzie lier - instancje, które nie zachowują się jak reszta instancji).

Co oznaczają „Inliers” w kontekście wykrywania anomalii? i jak to się ma do (innych niż) wartości odstających?

Anton.P
źródło

Odpowiedzi:

9

Jest to obszar, w którym występuje trochę niespójności w terminologii, co ma niefortunny skutek, wprowadzając w błąd w niektórych dyskusjach statystycznych. Pojęcie „ wkładki„jest ogólnie używany w odniesieniu do wartości danych, w których występuje błąd (tj. podlega błędowi pomiaru), ale mimo to znajduje się w„ wnętrzu ”rozkładu prawidłowo zmierzonych wartości. Zgodnie z tą definicją wartość wewnętrzna ma dwa aspekty: (1) ) znajduje się w odpowiednim rozkładzie wartości oraz (2) jest to wartość błędna. Przeciwnie, odpowiadające pojęcie „wartości odstającej” jest zwykle stosowane w odniesieniu do każdej wartości danych, która jest daleko w tyle dystrybucja, ale bez jakiegokolwiek aspektu definicyjnego zakładającego, że jest w błędzie. Ta terminologia powoduje niefortunną niespójność, w której „wartość wewnętrzna” jest błędnym punktem danych (z definicji), ale „wartość odstająca” niekoniecznie jest błędnym punktem danych. zgodnie z tą terminologią, związek „wartości odstających” i „wartości odstających”nie odpowiada ani wszystkim danym, ani nawet wszystkim błędnym danym.

Radzenie sobie z wartościami odstającymi: omówiłem zajmowanie się wartościami odstającymi w innych kwestiach tu i tutaj , ale dla wygody powtórzę tutaj niektóre z tych uwag. Wartości odstające to punkty, które są odległe od większości innych punktów w rozkładzie, a diagnoza „wartości odstającej” odbywa się poprzez porównanie punktu danych z pewną przyjętą formą rozkładu. Chociaż wartości odstające mogą być czasami spowodowane błędem pomiaru, diagnoza wartości odstających może również wystąpić, gdy dane podążają za rozkładem z wysoką kurtozą (tj. Grubymi ogonami), ale analityk porównuje punkty danych do założonej postaci dystrybucyjnej z niską kurtozą (np. rozkład normalny).

Oznaczanie „wartości odstających” w testach wartości odstających naprawdę oznacza po prostu, że zastosowany rozkład modelu nie ma wystarczającej ilości ogonów, aby dokładnie przedstawić obserwowane dane. Może to być spowodowane tym, że niektóre dane zawierają błąd pomiaru lub może to być po prostu rozkład z grubymi ogonami. O ile nie ma powodu, aby sądzić, że odchylenie od założonej postaci modelu stanowi dowód błędu pomiaru (który wymagałby teoretycznej podstawy do założenia podziału), obecność wartości odstających ogólnie oznacza, że ​​należy zmienić model, aby zastosować rozkład z grubszym ogony. Z natury trudno jest odróżnić błąd pomiaru od wysokiej kurtozy, która jest częścią rozkładu podstawowego.

Radzenie sobie z wartościami wewnętrznymi (co tak naprawdę zazwyczaj wiąże się z nie radzeniem sobie z nimi): Jeśli nie masz źródła zewnętrznych informacji wskazujących na błąd pomiaru, w zasadzie niemożliwe jest zidentyfikowanie „wartości zerowych”. Z definicji są to punkty danych znajdujące się w „wnętrzu” rozkładu, w którym występuje większość innych danych. Dlatego nie jest wykrywany przez testy, które szukają danych stanowiących „odchylenie” od innych punktów danych. (W niektórych przypadkach można wykryć „wartości odstające”, które wydają się znajdować w środku rozkładu, ale w rzeczywistości są „wartościami odstającymi”, jeśli wziąć je pod uwagę w odniesieniu do bardziej złożonej reprezentacji rozkładu. W tym przypadku chodzi o wartość odstającą,

W niektórych rzadkich przypadkach możesz mieć zewnętrzne źródło informacji, które identyfikują podzbiór twoich danych jako podatny na błąd pomiaru (np. Jeśli przeprowadzasz dużą ankietę i dowiadujesz się, że jeden z twoich inspektorów właśnie tworzył ich dane) ). W takim przypadku wszelkie punkty danych w tym podzbiorze, które znajdują się we wnętrzu dystrybucji, są „wewnętrznymi” i są znane z informacji zewnętrznych, że podlegają błędowi pomiaru. W takim przypadku na ogół usuwasz wszystkie dane, o których wiadomo, że są błędne, nawet jeśli niektóre z nich są „danymi wewnętrznymi”, które znajdują się we wnętrzu dystrybucji, w której można się spodziewać. Chodzi o to, że punkt danych może być błędny, nawet jeśli nie znajduje się w ogonach dystrybucji.

Ben - Przywróć Monikę
źródło