Zestawy danych podobne do Anscombe z tym samym polem i wykresem wąsów (średnia / standardowa / mediana / MAD / min / maks.)

21

EDYCJA: Ponieważ to pytanie zostało zawyżone, podsumowanie: znalezienie różnych znaczących i możliwych do interpretacji zestawów danych z tymi samymi mieszanymi statystykami (średnia, mediana, średnica i związane z nimi dyspersje oraz regresja).

Kwartet Anscombe (patrz Cel wizualizacji danych wielowymiarowych? ) Jest znanym przykładem czterech zestawów danych - , z tym samym marginalnym średnim / odchyleniem standardowym ( osobno dla czterech i czterech ) i tym samym dopasowaniem liniowym OLS , regresja i suma resztkowa kwadratów oraz współczynnik korelacji . Do -Type statystyki (marginalne i stawów) są więc takie same, natomiast zbiory danych są zupełnie inne.xyxyR22

Kwartet Anscombe

EDYCJA (na podstawie komentarzy PO) Pozostawiając niewielki rozmiar zbioru danych, pozwólcie, że zaproponuję kilka interpretacji. Zestaw 1 może być postrzegany jako standardowa liniowa (afiniczna, żeby być poprawna) relacja z rozproszonym hałasem. Zestaw 2 pokazuje czysty związek, który może być szczytem dopasowania wyższego stopnia. Zestaw 3 pokazuje wyraźną liniową zależność statystyczną z jedną wartością odstającą. Zestaw 4 jest trudniejszy: próba „przewidzenia” z wydaje się być skazana na niepowodzenie. Konstrukcja może ujawnić zjawisko histerezy z niewystarczającym zakresem wartości, efekt kwantyzacji ( może być zbyt mocno kwantyzowany) lub użytkownik zmienił zmienne zależne i niezależne.yxxx

Więc cechy i funkcje ukryć bardzo różne zachowania. Zestaw 2 można lepiej poradzić sobie z dopasowaniem wielomianowym. Zestaw 3 z metodami odpornymi na wartości odstające ( lub podobny), a także zestaw 4. Można się zastanawiać, czy inne funkcje kosztów lub wskaźniki rozbieżności mogłyby się ustabilizować, a przynajmniej poprawić dyskryminację zestawu danych. EDYCJA (z komentarzy OP): post na blogu Curious Regressions stwierdza, że:21

Nawiasem mówiąc, powiedziano mi, że Frank Anscombe nigdy nie ujawnił, w jaki sposób wymyślił te zbiory danych. Jeśli uważasz, że łatwo jest uzyskać wszystkie statystyki podsumowujące, a wyniki regresji są takie same, spróbuj!

W zestawach danych zbudowanych w celu zbliżonym do kwartetu Anscombe podano kilka interesujących zestawów danych, na przykład z tymi samymi histogramami opartymi na kwantylach. Nie widziałem mieszanki znaczących relacji i mieszanych statystyk.

Moje pytanie brzmi: czy istnieją dwuwymiarowe (lub trójzależne, aby zachować wizualizację) Zestawy danych podobne do Anscombe, takie, że oprócz posiadania tych samych statystyk typu2 :

  • Działki są ich interpretacji jako związek między i , jakby jeden szukaliśmy prawa pomiędzy pomiarami,xy
  • posiadają te same (bardziej solidne) właściwości marginalne (ta sama mediana i mediana bezwzględnego odchylenia),1
  • mają te same obwiednie: te same min, max (i stąd -type statystyki średniego i średniego zakresu).

Takie zestawy danych miałyby takie same podsumowania wykresów „bok-i-wąsy” (z min, maks, medianą, medianą absolutnego odchylenia / MAD, średnią i standardową) dla każdej zmiennej, i nadal byłyby zupełnie inne w interpretacji.

Byłoby jeszcze bardziej interesujące, gdyby jakakolwiek regresja absolutna była taka sama dla zestawów danych (ale być może już pytam za dużo). Mogą one służyć jako zastrzeżenie, gdy mówimy o regresji silnej kontra niesolidnej, i pomagają pamiętać cytat Richarda Hamminga:

Celem obliczeń jest wgląd, a nie liczby

EDYCJA (na podstawie komentarzy PO) Podobne problemy dotyczą generowania danych przy użyciu identycznych statystyk, ale Dissimilar Graphics , Sangit Chatterjee i Aykut Firata, The American Statistician, 2007 lub Klonowanie danych: generowanie zestawów danych z dokładnie takim samym dopasowaniem wielokrotnej regresji liniowej, J. Aust. N.-Z. Stat. J. 2009.

W Chatterjee (2007) celem jest generowanie nowych par przy użyciu tych samych środków i standardowych odchyleń od początkowego zestawu danych, przy jednoczesnym maksymalizowaniu różnych funkcji celu „rozbieżność / odmienność”. Ponieważ funkcje te mogą być niewypukłe lub nieodróżnialne, używają algorytmów genetycznych (GA). Ważne kroki polegają na orto-normalizacji, co jest bardzo spójne z zachowaniem średniej i (jednostkowej) wariancji. Liczby papieru (połowa zawartości papieru) nakładają się na dane wejściowe i wyjściowe GA. Moim zdaniem wyniki GA tracą wiele oryginalnej intuicyjnej interpretacji.(x,y)

I technicznie, ani mediana, ani średnica nie są zachowane, a artykuł nie wspomina o procedurach renormalizacji, które zachowałyby statystyki , i .1 2)1

Laurent Duval
źródło
3
Jeśli szukasz zarazem jednowymiarowych zestawów danych z tymi samymi wykresami pudełkowymi, dawałem zestaw w odpowiedzi na pytanie jakiś czas temu, w oparciu o rozwój w artykule. Poczekaj, wykopię to. (edytuj) ... tutaj . Łatwo jest tworzyć więcej zestawów danych o tych samych właściwościach ... Zajmuję się tym w innej odpowiedzi tutaj .
Glen_b
2
Jednak po zastanowieniu, przypuszczam, że teraz nie jesteś po jednowymiarowych zbiorów danych o tych samych boxplots, ale zamiast szukać dwuwymiarowe zestawów danych, których „y i ” s wszystkie mają ten sam zestaw dwóch boxplots, i które mają takie same linia najmniejszych kwadratów - czy to prawda? yxy
Glen_b
Kopanie było dla mnie przydatne, szczególnie w części pochyłości. Jednak jestem rzeczywiście patrząc na bardziej „naturalny” poszukuje dwuwymiarowych (lub więcej) Działki, z zależnościami między i . Podobne „mocne” dopasowanie byłoby plusem. Zredagowałem i mam nadzieję, że wyjaśniłem pytanieyxy
Laurent Duval
3
Chatterjee & Firat ( The American Statistician , 2007) , powiązane z odpowiedzią na to pytanie , zapewniają raczej ogólny algorytm genetyczny, który powinieneś być w stanie w prosty sposób dostosować do swoich celów.
S. Kolassa - Przywróć Monikę
1
Wykresy są przykładami momentów populacji, które nie mają znaczenia, gdy momenty dystrybucji są ignorowane. Średnia, odchylenie standardowe, skośność i inne momenty populacji nie odpowiadają oczekiwanym wartościom, odchyleniom standardowym, skośności i innym momentom rozkładów, które najlepiej opisują te populacje. Kiedy wykresy powyżej są rozpatrywane jako rozkłady wartości x i wartości y, wszystkie są różne i dlatego mają różne momenty rozkładu. Jest to gorsze niż ignorowanie resztkowej struktury, co było chyba celem, którego nie można zignorować bezkarnie.
Carl

Odpowiedzi:

1

Mówiąc konkretnie, rozważam problem utworzenia dwóch zestawów danych, z których każdy sugeruje związek, ale związek każdego z nich jest inny, a jednocześnie ma w przybliżeniu to samo:

  • znaczy x
  • znaczy y
  • SD x
  • SD y
  • mediana x
  • mediana y
  • minimum x
  • minimum y
  • maksymalnie x
  • maksymalnie y
  • mediana bezwzględnego odchylenia od mediany x
  • mediana bezwzględnego odchylenia od mediany y
  • współczynniki z prostej regresji liniowej y na x

Być może jest to oszustwo, ale jednym ze sposobów, aby znacznie ułatwić ten problem, jest użycie zestawu danych, w którym najlepiej dopasowaną linią jest oś x , , i . Następnie możemy po prostu odwrócić dane w pionie, aby uzyskać coś sugerującego wyraźnie wyraźny rozkład, ale w którym zachowane są wszystkie powyższe statystyki.min y = - max yoznaczaćy=0miny=-maxy

Zastanów się na przykład

x0192)93)949596979891y-1-12)012)1112)0-12)-1

który ma wykres w kształcie litery V taki jak ten:

wykres

Wymienić z i masz spadkową V z wszystkich tych samych statystyk, a nie tylko w przybliżeniu, ale dokładnie.- yy-y

Kodiolog
źródło
Niezły wkład. Rzeczywiście, spadłem pozioma linia jest trochę oszukiwanie wrs OLS. Przerzucanie jest dobrym pomysłem, ale jeśli zestawy danych są różne, pozostają one podobne. Ale myślę, że masz dobry pomysł, być może kształt „N” i kształt „W” w ten sam sposób mogą być początkiem ścieżki
Laurent Duval