Różnica między brakującymi danymi a danymi rzadkimi w algorytmach uczenia maszynowego

20

Jakie są główne różnice między danymi rzadkimi a brakującymi? Jak wpływa na uczenie maszynowe? Mówiąc dokładniej, jaki wpływ rzadkie dane i brakujące dane mają na algorytmy klasyfikacji i algorytmy regresji (przewidywania liczb). Mówię o sytuacji, w której odsetek brakujących danych jest znaczny i nie możemy upuścić wierszy zawierających brakujące dane.

zmęczony i znudzony twórca
źródło
4
Rzadkie dane oznaczają, że wiele wartości jest zerowych, ale wiesz , że są zerowe. Brak danych oznacza, że nie wiesz, jakie są niektóre lub wiele wartości.
Anna SdTC
Dzięki. Tak też myślałem, ale chciałem to potwierdzić. Ponadto, jak wspomniano w pytaniu, chciałbym wiedzieć, w jaki sposób ogólnie te typy danych są obsługiwane w problemach z uczeniem maszynowym.
zmęczony i znudzony deweloper
1
Myślę, że twoje pytanie jest trochę niejasne. „Uczenie maszynowe” obejmuje szeroki zakres metod i narzędzi, więc odpowiedź zależy od tego, co masz lub co chcesz zrobić. Tutaj omawiają niektóre metody postępowania z brakującymi danymi: stats.stackexchange.com/questions/103500/…
Anna SdTC
Dzięki. Mam świadomość szerokiej gamy narzędzi i rodzajów algorytmów ml. Ale chciałem wiedzieć, czy istnieją jakieś ogólne podejścia.
zmęczony i znudzony dev

Odpowiedzi:

16

Aby ułatwić zrozumienie, opiszę to na przykładzie. Powiedzmy, że zbierasz dane z urządzenia, które ma 12 czujników. I zbierałeś dane przez 10 dni.

Zebrane dane są następujące: wprowadź opis zdjęcia tutaj

Nazywa się to danymi rzadkimi, ponieważ większość wyjść czujnika ma zero. Co oznacza, że ​​czujniki działają poprawnie, ale rzeczywisty odczyt wynosi zero. Chociaż macierz ta ma dane o dużych wymiarach (12 osi), można powiedzieć, że zawiera mniej informacji.

Powiedzmy, że 2 czujniki twojego urządzenia działają nieprawidłowo.
Wtedy twoje dane będą jak:wprowadź opis zdjęcia tutaj

W takim przypadku widać, że nie można użyć danych z czujnika 1 i czujnika 6. Albo musisz ręcznie wypełnić dane bez wpływu na wyniki, albo musisz powtórzyć eksperyment.

Lahiru Karunaratne
źródło