EDYCJA: Ponieważ to pytanie zostało zawyżone, podsumowanie: znalezienie różnych znaczących i możliwych do interpretacji zestawów danych z tymi samymi mieszanymi statystykami (średnia, mediana, średnica i związane z nimi dyspersje oraz regresja).
Kwartet Anscombe (patrz Cel wizualizacji danych wielowymiarowych? ) Jest znanym przykładem czterech zestawów danych - , z tym samym marginalnym średnim / odchyleniem standardowym ( osobno dla czterech i czterech ) i tym samym dopasowaniem liniowym OLS , regresja i suma resztkowa kwadratów oraz współczynnik korelacji . Do -Type statystyki (marginalne i stawów) są więc takie same, natomiast zbiory danych są zupełnie inne.
EDYCJA (na podstawie komentarzy PO) Pozostawiając niewielki rozmiar zbioru danych, pozwólcie, że zaproponuję kilka interpretacji. Zestaw 1 może być postrzegany jako standardowa liniowa (afiniczna, żeby być poprawna) relacja z rozproszonym hałasem. Zestaw 2 pokazuje czysty związek, który może być szczytem dopasowania wyższego stopnia. Zestaw 3 pokazuje wyraźną liniową zależność statystyczną z jedną wartością odstającą. Zestaw 4 jest trudniejszy: próba „przewidzenia” z wydaje się być skazana na niepowodzenie. Konstrukcja może ujawnić zjawisko histerezy z niewystarczającym zakresem wartości, efekt kwantyzacji ( może być zbyt mocno kwantyzowany) lub użytkownik zmienił zmienne zależne i niezależne.
Więc cechy i funkcje ukryć bardzo różne zachowania. Zestaw 2 można lepiej poradzić sobie z dopasowaniem wielomianowym. Zestaw 3 z metodami odpornymi na wartości odstające ( lub podobny), a także zestaw 4. Można się zastanawiać, czy inne funkcje kosztów lub wskaźniki rozbieżności mogłyby się ustabilizować, a przynajmniej poprawić dyskryminację zestawu danych. EDYCJA (z komentarzy OP): post na blogu Curious Regressions stwierdza, że:
Nawiasem mówiąc, powiedziano mi, że Frank Anscombe nigdy nie ujawnił, w jaki sposób wymyślił te zbiory danych. Jeśli uważasz, że łatwo jest uzyskać wszystkie statystyki podsumowujące, a wyniki regresji są takie same, spróbuj!
W zestawach danych zbudowanych w celu zbliżonym do kwartetu Anscombe podano kilka interesujących zestawów danych, na przykład z tymi samymi histogramami opartymi na kwantylach. Nie widziałem mieszanki znaczących relacji i mieszanych statystyk.
Moje pytanie brzmi: czy istnieją dwuwymiarowe (lub trójzależne, aby zachować wizualizację) Zestawy danych podobne do Anscombe, takie, że oprócz posiadania tych samych statystyk typu :
- Działki są ich interpretacji jako związek między i , jakby jeden szukaliśmy prawa pomiędzy pomiarami,
- posiadają te same (bardziej solidne) właściwości marginalne (ta sama mediana i mediana bezwzględnego odchylenia),
- mają te same obwiednie: te same min, max (i stąd -type statystyki średniego i średniego zakresu).
Takie zestawy danych miałyby takie same podsumowania wykresów „bok-i-wąsy” (z min, maks, medianą, medianą absolutnego odchylenia / MAD, średnią i standardową) dla każdej zmiennej, i nadal byłyby zupełnie inne w interpretacji.
Byłoby jeszcze bardziej interesujące, gdyby jakakolwiek regresja absolutna była taka sama dla zestawów danych (ale być może już pytam za dużo). Mogą one służyć jako zastrzeżenie, gdy mówimy o regresji silnej kontra niesolidnej, i pomagają pamiętać cytat Richarda Hamminga:
Celem obliczeń jest wgląd, a nie liczby
EDYCJA (na podstawie komentarzy PO) Podobne problemy dotyczą generowania danych przy użyciu identycznych statystyk, ale Dissimilar Graphics , Sangit Chatterjee i Aykut Firata, The American Statistician, 2007 lub Klonowanie danych: generowanie zestawów danych z dokładnie takim samym dopasowaniem wielokrotnej regresji liniowej, J. Aust. N.-Z. Stat. J. 2009.
W Chatterjee (2007) celem jest generowanie nowych par przy użyciu tych samych środków i standardowych odchyleń od początkowego zestawu danych, przy jednoczesnym maksymalizowaniu różnych funkcji celu „rozbieżność / odmienność”. Ponieważ funkcje te mogą być niewypukłe lub nieodróżnialne, używają algorytmów genetycznych (GA). Ważne kroki polegają na orto-normalizacji, co jest bardzo spójne z zachowaniem średniej i (jednostkowej) wariancji. Liczby papieru (połowa zawartości papieru) nakładają się na dane wejściowe i wyjściowe GA. Moim zdaniem wyniki GA tracą wiele oryginalnej intuicyjnej interpretacji.
I technicznie, ani mediana, ani średnica nie są zachowane, a artykuł nie wspomina o procedurach renormalizacji, które zachowałyby statystyki , i .ℓ 1 ℓ ∞
źródło
Odpowiedzi:
Mówiąc konkretnie, rozważam problem utworzenia dwóch zestawów danych, z których każdy sugeruje związek, ale związek każdego z nich jest inny, a jednocześnie ma w przybliżeniu to samo:
Być może jest to oszustwo, ale jednym ze sposobów, aby znacznie ułatwić ten problem, jest użycie zestawu danych, w którym najlepiej dopasowaną linią jest oś x , , i . Następnie możemy po prostu odwrócić dane w pionie, aby uzyskać coś sugerującego wyraźnie wyraźny rozkład, ale w którym zachowane są wszystkie powyższe statystyki.min y = - max yoznaczaćy= 0 min y= - maks. Y
Zastanów się na przykład
który ma wykres w kształcie litery V taki jak ten:
Wymienić z i masz spadkową V z wszystkich tych samych statystyk, a nie tylko w przybliżeniu, ale dokładnie.- yy - y
źródło