tl; dr
- Jaki jest zalecany sposób postępowania z
discrete
danymi podczas wykrywania nieprawidłowości? - Jaki jest zalecany sposób postępowania
categorical
danymi podczas wykrywania nieprawidłowości? - Ta odpowiedź sugeruje użycie dyskretnych danych tylko do filtrowania wyników.
- Być może zastąpisz wartość kategorii procentową szansą obserwacji?
Wprowadzenie
To jest mój pierwszy post tutaj, więc proszę, jeśli coś nie wydaje się technicznie poprawne, ani w formatowaniu, ani w użyciu prawidłowych definicji, jestem zainteresowany tym, co powinno być użyte zamiast tego.
Dalej.
Niedawno brałem udział w uczeniu maszynowym zajęciach Andrew Ng
W wykrywaniu anomalii nauczono nas określać, jakie są parametry rozkładu normalnego / Gaussa dla danej cechy / zmiennej, w zbiorze danych, a następnie określać prawdopodobieństwo wybranego zestawu wartości przykładu treningu / obserwacji, biorąc pod uwagę ten konkretny Rozkład Gaussa, a następnie biorąc iloczyn prawdopodobieństwa cech.
metoda
Wybierz funkcje / zmienne, które uważamy wyjaśnić daną działalność:
Dopasuj parametry Gaussa dla każdej cechy:
Dla każdego przykładu treningowego oblicz:
Następnie oflagujemy jako anomalię ( ), biorąc pod uwagę:
Daje nam to metodę ustalenia, czy przykład wymaga dalszej kontroli.
Moje pytania)
Wydaje się to w porządku dla ciągłych zmiennych / cech, ale dane dyskretne nie są adresowane.
Co ze zmiennymi fikcyjnymi, np. Funkcją flagi płci, prawdopodobnie nazywaną, [IsMale]
która może mieć wartość ? Aby wziąć pod uwagę funkcję fikcyjną, zastosowalibyśmy rozkład dwumianowy do obliczenia p ( x ) ?
Co z kategorycznymi danymi, takimi jak kolor samochodu? Podczas gdy moglibyśmy odwzorować kolory na wartości liczbowe, np. , rozkład takiej jakościowej cechy może być zbliżony do jednorodności (tj. Równie prawdopodobne prawdopodobieństwo, że będzie którykolwiek z kolorów), a ponadto , ponieważ każda mapowania liczbowy występuje (tj r e d o wartości 1 , etc.) nie są porządkową, to sens, aby spróbować transformacji dowolnego niż rozkład normalny częstotliwości dla kolorów, które mają być rozkładem normalnym (czy nawet względu, że to nie jest porządkowe ??)? Na przykład, do mnie, to nie ma sensu robić l O przekształca, ponieważ dane nie są ciągłe ani porządkowe. Więc może najlepiej byłoby znaleźćdyskretny rozkład,który pasuje do tej funkcji, zamiast „torturować” dane, aby pasowały do Gaussa?
Pytania: (zaktualizowano: 24.11.2015)
Czy zmienne binarne można modelować z dwumianowym rozkładem prawdopodobieństwa i stać się kolejnym czynnikiem w obliczeniach ?Czy zmienne kategoryczne powinny być modelowane z dyskretnym rozkładem prawdopodobieństwa zamiast Gaussa i stać się kolejnym czynnikiem w obliczeniach ?Czy jest jakaś inna metoda, która bierze pod uwagę to, o co tutaj pytam, że mogę dalej badać / dowiedzieć się o niej?- Jaki jest zalecany sposób postępowania z
discrete
danymi podczas wykrywania nieprawidłowości? - Jaki jest zalecany sposób postępowania z
categorical
danymi podczas wykrywania nieprawidłowości?
Edytuj: 2017-05-03
- Ta odpowiedź sugeruje użycie dyskretnych danych tylko do filtrowania wyników.
- Być może zastąpisz wartość kategorii procentową szansą obserwacji?
źródło
Odpowiedzi:
Zasadniczo, zarówno dla cech dyskretnych *, jak i kategorycznych, ta metoda nie jest szczególnie podatna na analizę wartości odstających. Ponieważ nie ma wielkości powiązanej z predyktorami jakościowymi, współpracujemy z:
Zauważ, że żadnej z tych cech nie można analizować w oderwaniu, jak wymaga tego twoja metoda gaussowska. Zamiast tego potrzebujemy metody, która kontekstualizuje cechy jakościowe i uwzględnia korelacyjny charakter danych.
Oto kilka technik dla danych atrybutowych jakościowych i mieszanych, opartych na analizie wartości odstających autorstwa Aggarwal:
* Funkcje dyskretne mogą być obsługiwane w przybliżeniu w metodzie Gaussa. W odpowiednich warunkach cechę można dobrze aproksymować rozkładem normalnym (np. Dwumianowa zmienna losowa o npq> 3). Jeśli nie, potraktuj je jak porządki opisane powyżej.
** Jest to podobne do Twojego pomysłu „zastąpić wartość kategorii procentową szansą na obserwację”
źródło
Matematyka klasy Andrew Ng obsługuje dane „dyskretne”, podobnie jak dane „niedyskretne”. Wszystko, co musimy zrobić, to empirycznie oszacować normalne parametry rozkładu i można to doskonale zrobić w przypadku danych dyskretnych.
Jeśli się nad tym zastanowić, uczenie maszynowe zawsze zajmuje się dyskretnymi danymi: liczba punktów danych nie jest nieskończona, a liczba bitów obsługiwanych przez komputery nie jest nieskończona.
Jeśli dyskretne punkty danych można porównać między sobą, nie ma zasadniczej różnicy w metodach uczenia maszynowego w przypadku, powiedzmy, długości: 1,15 stopy 1,34 stopy 3,4 stopy
lub ile gałęzi jest na drzewie: 1 2 3 5
Liczby zmiennoprzecinkowe lub liczby całkowite można sumować tak samo.
Teraz do danych kategorycznych. Punktów danych kategorycznych nie można porównywać {samochód vs motocykl vs łódź). Jak sobie z tym poradzić?
Aby kategorie miały sens, liczba kategorii musi wynosić co najmniej dwie, w przeciwnym razie jaki jest sens stałej cechy? W przypadku 2 kategorii możemy przedstawić funkcję kategorii jako funkcję binarną {0, 1}. 0 i 1 mogą być użyte do matematyki, więc patrz wyżej.
Jeśli liczba kategorii (K) wynosi [3 .. inf], odwzorowujemy naszą pojedynczą cechę na funkcje binarne K wzajemnie wykluczające się. Na przykład kategoria „motocykl” staje się kombinacją funkcji binarnych {IsCar: 0, IsMotorcycle: 1, IsBoat: 0}, Boat point staje się {IsCar: 0, IsMotorcycle: 0, IsBoat: 1} i tak dalej.
Możemy oszacować empiryczne parametry dystrybucji na podstawie tych nowych funkcji. Po prostu będziemy mieć więcej wymiarów, to wszystko.
źródło