Sprawdzanie statystycznie istotnego piku

14

Mam zestaw danych, i x . Chciałbym przetestować następującą hipotezę: szczyt ma wartość y ; to jest, gdy x wzrasta, y najpierw wzrasta, a następnie maleje.yxyxy

Moim pierwszym pomysłem było dopasowanie i x 2 do lustrzanki. To znaczy, jeśli stwierdzę, że współczynnik przed x jest znacząco dodatni, a współczynnik przed x 2 jest znacząco ujemny, to mam poparcie dla hipotezy. Sprawdza to jednak tylko jeden typ relacji (kwadratowy) i niekoniecznie musi wychwytywać istnienie piku.xx2xx2

Potem pomyślałem o znalezieniu , takiego regionu (wartości posortowane) x , że b jest między a i c , dwóch innych regionów x, które zawierają co najmniej tyle punktów, co b , i że ¯ y b > ¯ y a i ¯ y b > ¯ y c znacznie. Jeśli hipoteza jest prawdziwa, powinniśmy oczekiwać wielu takich regionów b . Zatem jeśli liczba b jest wystarczająco duża, należy poprzeć hipotezę.bxbacxbyb¯>ya¯yb¯>yc¯bb

Czy uważasz, że jestem na dobrej drodze, aby znaleźć odpowiedni test dla mojej hipotezy? Czy też wymyślam koło i istnieje ustalona metoda rozwiązania tego problemu? Będę bardzo wdzięczny za twój wkład.

AKTUALIZACJA. Moją zmienną zależną jest liczba (nieujemna liczba całkowita).y

Nikita Samoylov
źródło
Czy zmienia się płynnie z x ? Jeśli tak, możesz spróbować dopasować model zawierający wygładzacz (np. GAM), a następnie obliczyć pierwsze pochodne dopasowanego wygładzacza i ich przedział ufności. Jeśli pochodna jest znacząca, to znaczy malejąca, masz odpowiedź. yx
Przywróć Monikę - G. Simpson

Odpowiedzi:

6

Myślałem również o wygładzeniu. Ale istnieje cały obszar zwany metodologią powierzchni odpowiedzi, która wyszukuje wartości szczytowe w zaszumionych danych (dotyczy to przede wszystkim stosowania lokalnych kwadratowych dopasowań do danych) i był znany artykuł, który pamiętam z tytułem „Polowanie na guzki”. Oto kilka linków do książek na temat metodologii powierzchni odpowiedzi. Książki Raya Myera są szczególnie dobrze napisane. Spróbuję znaleźć papier do polowania na guzki.

Metodologia powierzchni odpowiedzi: Optymalizacja procesu i produktu przy użyciu zaprojektowanych eksperymentów

Metodyka powierzchni odpowiedzi i pokrewne tematy

Metodologia powierzchni odpowiedzi

Empiryczne budowanie modeli i powierzchnie reakcji

Chociaż nie był to artykuł, którego szukałem, oto bardzo trafny artykuł Jerry'ego Friedmana i Nicka Fishera, który dotyczy tych pomysłów zastosowanych do danych wielowymiarowych.

Oto artykuł z kilkoma komentarzami online.

Mam więc nadzieję, że przynajmniej doceniasz moją odpowiedź. Myślę, że twoje pomysły są dobre i na właściwym torze, ale tak, myślę, że możesz odkrywać na nowo koło i mam nadzieję, że ty i inni spojrzycie na te doskonałe referencje.

Michael R. Chernick
źródło
3
Nie znalazłem się wśród zwolenników, ale oczekuje się, że odpowiedzi na stronach SE będą czymś więcej niż tylko linkiem do treści. Lepsze byłoby podsumowanie treści lub udzielenie odpowiedzi podsumowującej, a następnie linkowanie do treści w celu uzyskania dalszych szczegółów.
Przywróć Monikę - G. Simpson
2
Głosuję za tym, ponieważ (1) przedstawia dobry pomysł; (2) ma jakiś komentarz; oraz (3) jest obsługiwany przez starannie wybrane linki, w tym do swobodnie dostępnych materiałów. Tak, wygląda typograficznie źle, ponieważ linki mogą być ładniej sformatowane: ale mam nadzieję, że ludzie nie ważą tego aspektu odpowiedzi w swoich decyzjach dotyczących głosowania!
whuber
1
@ whuber Zgadzam się, po tym, jak mogłem go wyraźnie przeczytać ze względu na ładne formatowanie przez Procastinator. +1 również. Myślę, że jest tu dość podsumowania, a niektóre tematy są prawie zbyt skomplikowane, by można było na nich znaleźć coś więcej niż tylko podstawową ideę i odniesienie do dalszego czytania.
Erik
5
@MichaelChernick Należy pamiętać, że nie była to krytyka ze mną, tylko oferując powód dlaczego ludzie mogli dół przydatne. Nie zgodziłbym się z nimi, gdyby to był powód, ponieważ myślę, że twoja odpowiedź jest natychmiastowa, szczególnie w przypadku PRIM; Właśnie konsultowałem się z moim Hastie i in. (2009) w sprawie tego, co napisano na temat PRIM. Możesz dodać ten link do odpowiedzi, ponieważ są tam dwie sekcje dotyczące PRIM, a plik PDF jest dostępny za darmo.
Przywróć Monikę - G. Simpson
1
@Nikita Jaka jest formalna hipoteza statystyczna, którą chcesz przetestować? Najpierw musisz znaleźć szczyty, które są dużą częścią tego. Czy testujesz, że szczyt nie jest tylko wynikiem hałasu? Nie jestem pewien, jaka literatura istnieje, aby rozwiązać ten problem, ale pomyślałem, że można dopasować do danych regresję wielomianową (być może lokalnie kwadratową). Na tej podstawie oszacujesz wariancję rezydualną. Istotność statystyczna członu kwadratowego byłaby testem na istotność piku.
Michael R. Chernick,
1

Nawet jeśli nie odpowiedziałeś na moje pytanie, jeśli zgaduję, że masz rację, szukasz testu białego szumu, który mieści się w dziedzinie częstotliwości, aby pokazać, że widmo jest płaskie. Zatem można zastosować test okresogramu Fishera, który w tym odnośniku nazywa się kappą Fishera. Zobacz link.

http://www4.stat.ncsu.edu/~dickey/Spain/pdf_Notes/Spectral2.pdf

Test Bartletta jest również wspomniany w odnośniku. Teraz odrzucenie hipotezy zerowej oznacza znalezienie znaczącego piku w periodogramie. Oznaczałoby to, że w szeregach czasowych istnieje składnik okresowy.

Ponieważ test jest w dziedzinie częstotliwości i obejmuje rzędne periodogramowe, rzędna ma rozkład chi kwadrat 2 pod hipotezą zerową i jest niezależna. Ta specjalna dystrybucja powstaje tylko z powodu transformacji do dziedziny częstotliwości. Gdyby x był czasem, nie działałoby to w dziedzinie czasu lub ogólnie rozkład dla ys nie byłby niezależnym chi-kwadratem.

Ale weźmy model y = stała niezależny od x. Użyj ym, średnia ys jako oszacowanie stałej. Następnie testowanie istnienia piku sprowadzałoby się do odrzucenia, że ​​reszty tworzą sekwencję białego szumu.

Michael R. Chernick
źródło
Im więcej pytam na tej stronie, tym więcej się uczę =), tym razem o testach białego szumu i potrzebie udzielenia wystarczających informacji w moich pytaniach. Przykro mi, że wcześniej nie odpowiedziałem na twoje pytanie. Myślę, że testy szumu białego dla reszt byłyby odpowiednie, gdy błędy są normalnie rozłożone, ale moja zmienna zależnayjest właściwie liczyć. W każdym razie nie spodziewałbym się, że zobaczę biały szum w pozostałościach. A może coś mi brakuje?
Nikita Samoylov,
Więc y to dane zliczania i czym jest x ciągła zmienna objaśniająca? Moje wcześniejsze sugestie prawdopodobnie nie są w tym przypadku, ale istnieje wiele najnowszej literatury na temat modeli zliczania. Więc jeśli możesz być bardziej szczegółowy na temat danych i problemu, może mogę wskazać rozwiązanie.
Michael R. Chernick,
Tak, y jest liczyć xjest ciągły (ale nieujemny). Nie jestem pewien, jakie inne informacje byłyby ważne.
Nikita Samoylov,
Nie jestem pewien, czy to pomoże, ale Cameron i Trivedi opublikowali książkę o modelach regresji hrabiego i wydają
Michael R. Chernick,