Jakie są główne różnice między danymi rzadkimi a brakującymi? Jak wpływa na uczenie maszynowe? Mówiąc dokładniej, jaki wpływ rzadkie dane i brakujące dane mają na algorytmy klasyfikacji i algorytmy regresji (przewidywania liczb). Mówię o sytuacji, w której odsetek brakujących danych jest znaczny i nie możemy upuścić wierszy zawierających brakujące dane.
machine-learning
dataset
missing-data
sparse
zmęczony i znudzony twórca
źródło
źródło
Odpowiedzi:
Aby ułatwić zrozumienie, opiszę to na przykładzie. Powiedzmy, że zbierasz dane z urządzenia, które ma 12 czujników. I zbierałeś dane przez 10 dni.
Zebrane dane są następujące:
Nazywa się to danymi rzadkimi, ponieważ większość wyjść czujnika ma zero. Co oznacza, że czujniki działają poprawnie, ale rzeczywisty odczyt wynosi zero. Chociaż macierz ta ma dane o dużych wymiarach (12 osi), można powiedzieć, że zawiera mniej informacji.
Powiedzmy, że 2 czujniki twojego urządzenia działają nieprawidłowo.
Wtedy twoje dane będą jak:
W takim przypadku widać, że nie można użyć danych z czujnika 1 i czujnika 6. Albo musisz ręcznie wypełnić dane bez wpływu na wyniki, albo musisz powtórzyć eksperyment.
źródło