„Wszystkie te punkty danych pochodzą z tej samej dystrybucji”. Jak przetestować?

16

Wydaje mi się, że widziałem już ten temat, ale nie byłem w stanie znaleźć niczego konkretnego. Z drugiej strony nie jestem też pewien, czego szukać.

Mam jednowymiarowy zestaw uporządkowanych danych. Przypuszczam, że wszystkie punkty w zestawie są rysowane z tego samego rozkładu.

Jak mogę przetestować tę hipotezę? Czy uzasadnione jest przetestowanie ogólnej alternatywy „obserwacje w tym zbiorze danych pochodzą z dwóch różnych rozkładów”?

Idealnie chciałbym określić, które punkty pochodzą z „innego” rozkładu. Skoro moje dane są uporządkowane, czy mogę uniknąć identyfikacji punktu odcięcia, po jakimś czasie sprawdzeniu, czy „poprawne” jest wycięcie danych?

Edycja: zgodnie z odpowiedzią Glen_b zainteresowałbym się ściśle dodatnimi, unimodalnymi rozkładami. Byłbym również zainteresowany szczególnym przypadkiem założenia dystrybucji, a następnie testowania różnych parametrów .

Shadowtalker
źródło
Co rozumiesz przez „tę samą dystrybucję”? Czy obserwacje gamma są uważane za pochodzące z tego samego rozkładu, czy też jest to suma rozkładów wykładniczych?
Metariat
+1 to jest naprawdę dobre pytanie, które możesz sobie zadać.
user541686,
@Metallica, o ile każda obserwacja jest wykładniczą sumą, powiedziałbym, że pochodzą one z tej samej dystrybucji
shadowtalker
@ Mehrdad Nie mam formalnego szkolenia statystycznego poza moim stopniem licencjackim i kilku różnych klas u moich mistrzów. Jeśli spojrzysz na moją historię odpowiedzi, jasne jest, że wiem dużo o regresji liniowej, a niewiele o niczym innym
shadowtalker
2
Jednym z możliwych sposobów podejścia do tego pytania jest rozważenie skończonej mieszanki np. Jakiejś klasy rozkładów i sprawdzenie, czy potrzebujesz więcej niż 1 składnika mieszanki, aby dobrze opisać swoje dane. Pytanie brzmi jednak, czy istnieje klasa rozkładów, która jest wystarczająco elastyczna, aby opisać twoją „hipotezę zerową” pojedynczym składnikiem mieszanki (np. Jeśli zastosujesz skończoną mieszaninę rozkładów gamma, mogą one nie być elastyczne pod względem pochylenia lub ogona zachowanie w zależności od tego, co próbujesz zrobić), jednocześnie zawierające potencjalną alternatywę jako mieszaninę wieloskładnikową.
Björn

Odpowiedzi:

29

Wyobraź sobie dwa scenariusze:

  1. wszystkie punkty danych zostały narysowane z tego samego rozkładu - tego, który był jednolity (16,36)

  2. punkty danych zostały sporządzone z 50-50 kombinacji dwóch populacji:

    za. populacja A, która ma następujący kształt:

wprowadź opis zdjęcia tutaj

b. populacja B, o takim kształcie:

wprowadź opis zdjęcia tutaj

... tak, że mieszanka dwóch wygląda dokładnie tak jak w przypadku 1.

Jak można je rozdzielić?

Niezależnie od tego, jakie kształty wybierzesz dla dwóch populacji, zawsze będzie jeden rozkład populacji o takim samym kształcie. Ten argument wyraźnie pokazuje, że w ogólnym przypadku po prostu nie można tego zrobić. Nie ma możliwości rozróżnienia.

Jeśli wprowadzisz informacje o populacjach (założenia, skutecznie), często mogą istnieć sposoby postępowania *, ale ogólny przypadek jest martwy.

* np. jeśli założysz, że populacje są jednomodalne i mają wystarczająco różne środki, możesz się gdzieś dostać

[Ograniczenia, które zostały dodane do pytania, nie są wystarczające, aby uniknąć innej wersji rodzaju problemu, który opisałem powyżej - nadal możemy napisać unimodalny zero na dodatniej pół-linii jako 50-50 mieszaniny dwóch rozkładów unimodalnych na dodatniej pół-linii. Oczywiście, jeśli masz bardziej konkretny null, staje się to znacznie mniejszym problemem. Alternatywnie nadal powinno być możliwe dalsze ograniczenie klasy alternatyw, dopóki nie będziemy w stanie przetestować niektórych alternatywnych mieszanin. Lub można zastosować dodatkowe ograniczenia zarówno dla wartości zerowej, jak i alternatywnej, które umożliwiłyby ich rozróżnienie.]

Glen_b - Przywróć Monikę
źródło
1
Dzięki, świetny kontrprzykład. Sprowadza się to do odpowiedniego ograniczenia alternatywnej hipotezy, prawda?
shadowtalker
@ssdecontrol tak, w istocie; jeśli (biorąc pod uwagę założenia) alternatywę można odróżnić od wartości zerowej, masz nadzieję na test z mocą wyższą niż poziom istotności.
Glen_b
0

Oczywiście potrzebujesz trochę teorii, aby porozmawiać o dystrybucji (ach) i sformułować hipotezy do przetestowania. Coś, co grupuje badanych w jedną lub więcej grup i coś, co sprawia, że ​​pomiary są rozłożone.

Jak się tam dostać? Widzę trzy opcje:

  • Jeśli już wiesz o tym ze swojego przedmiotu, wystarczy przetłumaczyć go na język hipotez statystycznych
  • Wykreśl wykresy i rozpoznawaj wzorce, aby przekształcić je w hipotezy do przetestowania
  • Wymyśl listę rozkładów, które możesz zmieścić i wykonaj eksperyment matematyczny. Słowem kluczowym jest programowanie probabilistyczne

Ćwiczenie pozwoli następnie stwierdzić, że w próbie znajduje się jedna lub więcej grup lub tylko jedna. Lub w ogóle nie ma grupy.

Diego
źródło