Wydaje mi się, że widziałem już ten temat, ale nie byłem w stanie znaleźć niczego konkretnego. Z drugiej strony nie jestem też pewien, czego szukać.
Mam jednowymiarowy zestaw uporządkowanych danych. Przypuszczam, że wszystkie punkty w zestawie są rysowane z tego samego rozkładu.
Jak mogę przetestować tę hipotezę? Czy uzasadnione jest przetestowanie ogólnej alternatywy „obserwacje w tym zbiorze danych pochodzą z dwóch różnych rozkładów”?
Idealnie chciałbym określić, które punkty pochodzą z „innego” rozkładu. Skoro moje dane są uporządkowane, czy mogę uniknąć identyfikacji punktu odcięcia, po jakimś czasie sprawdzeniu, czy „poprawne” jest wycięcie danych?
Edycja: zgodnie z odpowiedzią Glen_b zainteresowałbym się ściśle dodatnimi, unimodalnymi rozkładami. Byłbym również zainteresowany szczególnym przypadkiem założenia dystrybucji, a następnie testowania różnych parametrów .
źródło
Odpowiedzi:
Wyobraź sobie dwa scenariusze:
wszystkie punkty danych zostały narysowane z tego samego rozkładu - tego, który był jednolity (16,36)
punkty danych zostały sporządzone z 50-50 kombinacji dwóch populacji:
za. populacja A, która ma następujący kształt:
b. populacja B, o takim kształcie:
... tak, że mieszanka dwóch wygląda dokładnie tak jak w przypadku 1.
Jak można je rozdzielić?
Niezależnie od tego, jakie kształty wybierzesz dla dwóch populacji, zawsze będzie jeden rozkład populacji o takim samym kształcie. Ten argument wyraźnie pokazuje, że w ogólnym przypadku po prostu nie można tego zrobić. Nie ma możliwości rozróżnienia.
Jeśli wprowadzisz informacje o populacjach (założenia, skutecznie), często mogą istnieć sposoby postępowania *, ale ogólny przypadek jest martwy.
* np. jeśli założysz, że populacje są jednomodalne i mają wystarczająco różne środki, możesz się gdzieś dostać
[Ograniczenia, które zostały dodane do pytania, nie są wystarczające, aby uniknąć innej wersji rodzaju problemu, który opisałem powyżej - nadal możemy napisać unimodalny zero na dodatniej pół-linii jako 50-50 mieszaniny dwóch rozkładów unimodalnych na dodatniej pół-linii. Oczywiście, jeśli masz bardziej konkretny null, staje się to znacznie mniejszym problemem. Alternatywnie nadal powinno być możliwe dalsze ograniczenie klasy alternatyw, dopóki nie będziemy w stanie przetestować niektórych alternatywnych mieszanin. Lub można zastosować dodatkowe ograniczenia zarówno dla wartości zerowej, jak i alternatywnej, które umożliwiłyby ich rozróżnienie.]
źródło
Oczywiście potrzebujesz trochę teorii, aby porozmawiać o dystrybucji (ach) i sformułować hipotezy do przetestowania. Coś, co grupuje badanych w jedną lub więcej grup i coś, co sprawia, że pomiary są rozłożone.
Jak się tam dostać? Widzę trzy opcje:
Ćwiczenie pozwoli następnie stwierdzić, że w próbie znajduje się jedna lub więcej grup lub tylko jedna. Lub w ogóle nie ma grupy.
źródło