W jaki sposób sprawdzić, czy próbki dwóch rozkładów wielowymiarowych są pobierane z tej samej populacji podstawowej?

13

Powiedzmy, że otrzymujesz dwa wielowymiarowe zestawy danych, powiedzmy stary i nowy, i że powinny być one wygenerowane przez ten sam proces (dla którego nie masz modelu), ale być może gdzieś wzdłuż linii zbierania / tworzenia dane, coś poszło nie tak. Nie chcesz używać nowych danych jako, powiedzmy, zestawu sprawdzającego poprawność starych danych lub dodawać do starych danych.

Możesz wykonać kilka statystyk 1-d (dla każdej zmiennej), np. Sumę rang Wilcoxona i wypróbować kilka poprawek wielokrotnych testów, ale nie jestem pewien, czy to optymalne (aby uchwycić zawiłości danych wielowymiarowych, nie mówiąc już o problemach z wieloma testami). Jednym ze sposobów jest użycie klasyfikatora i sprawdzenie, czy można rozróżnić dwa zestawy danych (biorąc pod uwagę optymalny klasyfikator, który jest optymalny). Wydaje się, że to działa, ale nadal a) perhpas istnieje lepszy sposób b) Nie jest tak naprawdę zaprojektowany, aby powiedzieć ci, dlaczego jest inny (jeśli nic więcej, użyje najlepszych predyktorów i prawdopodobnie przegapi inne dobre predyktory, które były podrzędne przez lepsze)

diament
źródło

Odpowiedzi:

3
http://131.95.113.139/courses/multivariate/mantel.pdf

Omówiono dwa możliwe sposoby wykonania tego, jeśli zestawy danych są tego samego rozmiaru. Podstawowym podejściem jest obliczenie metryki odległości między dwoma obserwowanymi macierzami. Następnie, aby ustalić, czy odległość ta jest znacząca, użyj testu permutacji .

Jeśli twoje zbiory danych nie są tego samego rozmiaru, możesz użyć testu krzyżowego, chociaż nie wydaje się on zbyt popularny. Zamiast testu krzyżowego możesz próbować w górę lub w dół próbkować swoje dane, aby miały ten sam rozmiar, a następnie zastosować jedno z podejść wymienionych w pierwszym artykule.

Amit Deshwar
źródło
Wspominasz, jeśli mamy zestawy danych o nierównej wielkości, skorzystaj z testu krzyżowego. Jednak zgodnie z tym, o którym wspominasz, używają jednakowych, równych zestawów danych i szukają parowania na podstawie odległości. Czy znalazłeś jakieś dowody na to, że jest używany? nawet w informacjach o wersji dla dopasowania krzyżowego w przykładzie użyto równych zestawów danych
lukeg