Mam zestaw danych, i x . Chciałbym przetestować następującą hipotezę: szczyt ma wartość y ; to jest, gdy x wzrasta, y najpierw wzrasta, a następnie maleje.
Moim pierwszym pomysłem było dopasowanie i x 2 do lustrzanki. To znaczy, jeśli stwierdzę, że współczynnik przed x jest znacząco dodatni, a współczynnik przed x 2 jest znacząco ujemny, to mam poparcie dla hipotezy. Sprawdza to jednak tylko jeden typ relacji (kwadratowy) i niekoniecznie musi wychwytywać istnienie piku.
Potem pomyślałem o znalezieniu , takiego regionu (wartości posortowane) x , że b jest między a i c , dwóch innych regionów x, które zawierają co najmniej tyle punktów, co b , i że ¯ y b > ¯ y a i ¯ y b > ¯ y c znacznie. Jeśli hipoteza jest prawdziwa, powinniśmy oczekiwać wielu takich regionów b . Zatem jeśli liczba b jest wystarczająco duża, należy poprzeć hipotezę.
Czy uważasz, że jestem na dobrej drodze, aby znaleźć odpowiedni test dla mojej hipotezy? Czy też wymyślam koło i istnieje ustalona metoda rozwiązania tego problemu? Będę bardzo wdzięczny za twój wkład.
AKTUALIZACJA. Moją zmienną zależną jest liczba (nieujemna liczba całkowita).
źródło
Odpowiedzi:
Myślałem również o wygładzeniu. Ale istnieje cały obszar zwany metodologią powierzchni odpowiedzi, która wyszukuje wartości szczytowe w zaszumionych danych (dotyczy to przede wszystkim stosowania lokalnych kwadratowych dopasowań do danych) i był znany artykuł, który pamiętam z tytułem „Polowanie na guzki”. Oto kilka linków do książek na temat metodologii powierzchni odpowiedzi. Książki Raya Myera są szczególnie dobrze napisane. Spróbuję znaleźć papier do polowania na guzki.
Metodologia powierzchni odpowiedzi: Optymalizacja procesu i produktu przy użyciu zaprojektowanych eksperymentów
Metodyka powierzchni odpowiedzi i pokrewne tematy
Metodologia powierzchni odpowiedzi
Empiryczne budowanie modeli i powierzchnie reakcji
Chociaż nie był to artykuł, którego szukałem, oto bardzo trafny artykuł Jerry'ego Friedmana i Nicka Fishera, który dotyczy tych pomysłów zastosowanych do danych wielowymiarowych.
Oto artykuł z kilkoma komentarzami online.
Mam więc nadzieję, że przynajmniej doceniasz moją odpowiedź. Myślę, że twoje pomysły są dobre i na właściwym torze, ale tak, myślę, że możesz odkrywać na nowo koło i mam nadzieję, że ty i inni spojrzycie na te doskonałe referencje.
źródło
Nawet jeśli nie odpowiedziałeś na moje pytanie, jeśli zgaduję, że masz rację, szukasz testu białego szumu, który mieści się w dziedzinie częstotliwości, aby pokazać, że widmo jest płaskie. Zatem można zastosować test okresogramu Fishera, który w tym odnośniku nazywa się kappą Fishera. Zobacz link.
http://www4.stat.ncsu.edu/~dickey/Spain/pdf_Notes/Spectral2.pdf
Test Bartletta jest również wspomniany w odnośniku. Teraz odrzucenie hipotezy zerowej oznacza znalezienie znaczącego piku w periodogramie. Oznaczałoby to, że w szeregach czasowych istnieje składnik okresowy.
Ponieważ test jest w dziedzinie częstotliwości i obejmuje rzędne periodogramowe, rzędna ma rozkład chi kwadrat 2 pod hipotezą zerową i jest niezależna. Ta specjalna dystrybucja powstaje tylko z powodu transformacji do dziedziny częstotliwości. Gdyby x był czasem, nie działałoby to w dziedzinie czasu lub ogólnie rozkład dla ys nie byłby niezależnym chi-kwadratem.
Ale weźmy model y = stała niezależny od x. Użyj ym , średnia ys jako oszacowanie stałej. Następnie testowanie istnienia piku sprowadzałoby się do odrzucenia, że reszty tworzą sekwencję białego szumu.
źródło