Jaka jest różnica między wartością odstającą a anomalią w kontekście uczenia maszynowego. Rozumiem, że oba odnoszą się do tej samej rzeczy.
outliers
terminology
anomaly-detection
użytkownik3282512
źródło
źródło
Odpowiedzi:
Te dwa terminy są synonimami według:
Cytat ze strony 1:
Pogrubiony tekst nie jest częścią oryginalnego tekstu.
Do pobrania pdf książki dostępny od autora jest tutaj.
źródło
Krótka odpowiedź:
Outlier: wartość, którą można znaleźć w danych, która wskazuje, że model nie działa poprawnie
Anomalia: wartość, która wbrew wszelkim przeciwnościom, jakie znajdziesz w danych, wskazująca, że Twój model działa poprawnie
Bardziej poważna, mniej tajemnicza odpowiedź:
Koncepcja wartości odstających rozpoczyna się od problemu zbudowania modelu, który przyjmuje założenia dotyczące danych. Wartości odstające są często wskaźnikami, że model nie opisuje poprawnie danych, dlatego powinniśmy kwestionować wyniki naszego modelu lub jakość naszych danych.
Pojęcie anomalii zaczyna się poza światem teoretycznym i wewnątrz świata stosowanego: chcemy szukać w naszych danych niezwykłych zachowań, czasem motywowanych faktem, że jesteśmy zainteresowani znalezieniem zachowania, które ktoś próbuje ukryć (jak wirus w e-mail). Problem polega na tym, że skoro ludzie próbują ukryć to, co robią, tak naprawdę nie wiemy, czego szukać. Dlatego bierzemy zestaw „dobrych” danych i decydujemy, że wszystko, co znajdziemy w naszym nowym zestawie danych, który nie wygląda na „dobry”, jest anomalią i warto poświęcić nasz czas na bardziej szczegółowe sprawdzenie. Często poszukiwanie anomalii oznacza poszukiwanie wartości odstających w nowym zestawie danych. Pamiętaj jednak, że te wartości mogą być bardzo powszechne w nowym zestawie danych, mimo że są rzadkie w starym zestawie danych!
Podsumowując, dwie koncepcje są bardzo podobne pod względem statystyk za nimi (tj. Nietypowe wartości, biorąc pod uwagę dopasowany model), ale przychodzą na pomysł pod różnymi kątami. Ponadto, gdy mówimy o wartościach odstających, zwykle mamy na myśli nietypowy punkt danych w danych używanych do dopasowania do naszego modelu , przy czym jako anomalia zwykle rozumiany jest jako nietypowy punkt danych w zbiorze danych poza danymi użytymi do dopasowania naszego modelu .
Uwaga: ta odpowiedź jest oparta na tym, jak widziałem często używane dwa terminy, a nie na formalnych definicjach. Doświadczenia użytkowników mogą się różnić.
źródło
Anomalia jest wynikiem, którego nie można wyjaśnić, biorąc pod uwagę rozkład podstawowy (niemożliwość, jeśli nasze założenia są prawidłowe). Wartość odstająca jest zdarzeniem mało prawdopodobnym, biorąc pod uwagę rozkład podstawowy (nieprawdopodobieństwo).
źródło
Terminy są w dużej mierze używane zamiennie. „Outlier” odnosi się do czegoś leżącego poza normą - jest więc „anomalny”. Mam jednak wrażenie, że „wartość odstająca” jest zwykle używana do bardzo rzadkich obserwacji. W statystykach, przy normalnym rozkładzie, można uznać trzy sigma za wartości odstające. To znaczy, że 99,7% twoich obiektów ma być „normalnych”. „Anomalia” jest używana o wiele bardziej swobodnie. Jeśli nagle masz miliony użytkowników na swojej stronie, nie są to rzadcy użytkownicy. Nagły wzrost liczby odwiedzających jest jednak nadal „anomalny”, podczas gdy każdy odwiedzający nie jest „odstający”.
Być może w tym artykule omawiałem te różnice, ale niestety nie mogę teraz uzyskać do nich dostępu.
źródło
Aby jeszcze bardziej zamulić wody, w anomalii klimatologicznej po prostu implikuje się różnicę między wartością a średnią lub odchylenie:
patrz np
Można to uznać za zewnętrzne uczenie maszynowe, ale osoby zainteresowane tym pytaniem mogą być tym zainteresowane.
źródło
Anomalią może być jeden punkt danych lub ogólny trend lub zachowanie zaobserwowane w danych po zbudowaniu modelu lub zrozumienie procesu generowania danych. Występują anomalie, ponieważ system zaczyna zachowywać się inaczej lub wyszukujesz takie punkty danych, ponieważ chcesz być informowany o zdarzeniu, podczas którego Twój model jest nieważny. Możesz dbać o obserwowanie wszelkich anomalnych zachowań w amplitudach fal oceanicznych, nie dlatego, że chcesz wyrzucić te punkty danych i zbudować lepszy model, ale dlatego, że chcesz być świadomy, kiedy może mieć miejsce tsunami.
źródło
Dobre pytanie. Jednak wyszukiwanie w Google „różnica między wartościami odstającymi a anomaliami: .edu” pokazuje, że nie ma teoretycznej różnicy między tymi dwoma terminami. Są one stosowane zamiennie w literaturze.
źródło