Jakiego rodzaju regresji użyć, biorąc pod uwagę jedną zmienną z górną granicą?

9

Ja nie wiem, stosowanej metody modelowania zależność pomiędzy dwoma zmiennymi ( i ) w doświadczeniu opisano w sposób następujący:xy

  • Istnieją 3 zmienne: , i .xaimxy
  • Wartość jest ustawiana podczas przeprowadzania eksperymentu. Jednak i nie zawsze są równe.xaimxxaim
  • Współczynnik korelacji Pearsona między i wynosi około 0,9.xaimx
  • Współczynnik korelacji Pearsona między i jest znacznie mniejsza: około 0,5.xy
  • y ma maksymalną możliwą wartość ( ), której nie można przekroczyć.ymax
  • Każdy punkt danych jest otrzymywany po ustawieniu i czytania i .xaimxy

Chociaż współczynnik korelacji Pearsona między i nie jest wielki, wygląda na to ma tendencję wzrostową z .xyyx

Po wykonaniu prostych regresji liniowych i (i przekonwertowaniu tego ostatniego z powrotem na , aby wyświetlić na przykład na tym samym wykresie co ), oba nachylenia są dodatnie, ale nachylenie jest większe niż dla .y=f(x)x=g(y)g1fg1f

Czy sensowne jest powiedzenie czy ? ( byłby osiągnięty wcześniej w drugim przypadku.)xmax=f1(ymax)xmax=g(ymax)xmax

Biorąc pod uwagę, że jest ograniczone przez , co można powiedzieć o możliwej maksymalnej wartości którą można by osiągnąć?yymaxx

O ile rozumiem, sensowne jest wykonanie regresji liniowej postaci gdy jest zmienną niezależną, a jest zmienną zależną. Jednak w tym kontekście nie jestem pewien, czy uzasadnione jest uznanie, że jest niezależne, a jest zależne.y=f(x)xyxy

Czy regresja łączna najmniejszych kwadratów byłaby bardziej odpowiednia? Czy istnieją inne metody określania, które wartości można osiągnąć (i z jakim prawdopodobieństwem)?xmax

(Jeśli to sprawy, i nie wydają się podążać rozkład normalny, coraz próby zostały dokonane, aby spróbować osiągnąć wyższe wartości ).xyx

Bruno
źródło
Co zrobisz z tym związkiem, jeśli go znajdziesz? Czy przetestujesz te hipotezy, czy jesteś po prostu zainteresowany, jak to wygląda? Jeśli istnieje wiele punktów danych, należy rozważyć modele nieliniowe.
mpiktas,
@mpiktas, w końcu chciałbym wiedzieć, który x_max jest rozsądnym celem, do którego mógłbym dążyć regularnie (nie tylko raz), biorąc pod uwagę, że osiągnięcie lub przekroczenie y_max powoduje, że eksperyment jest nieważny (co oznacza, że ​​x = x_min za tę próbę).
Bruno,
Regresja sumy najmniejszych kwadratów (lub błędów w zmiennych) jest wskazana, gdy wariancja staje się znaczna w porównaniu do wariancji . 90% korelacja z sugeruje, że wariancja może być na tyle mała, że ​​można ją bezpiecznie traktować jako zmienną niezależną. To jest coś, co można sprawdzić post-regresji porównując RMSE z resztek vs do RMSEs z resztek vs. . To, czy stanowi problem, zależy; jeśli widzisz górny punkt odcięcia na wykresie rozrzutu za pomocą , to jest to ważna uwaga.xyxaimxxaimxyxaimymaxxaim
whuber

Odpowiedzi:

4

Chcę zdobyć punkty @ Kinga. Jest bardzo intuicyjne, aby podejrzewać, że regresja na („regresja bezpośrednia”) i regresja na („regresja odwrotna”) powinny być takie same. Nie jest to jednak prawdą ani matematycznie, ani w odniesieniu do tego, w jaki sposób regresja jest związana z analizowaną sytuacją. Jeśli narysujesz na osi pionowej wykresu i na osi poziomej, zobaczysz, co się dzieje. Regresja bezpośrednia znajduje linię, która minimalizuje pionowe odległości między punktami danych a linią, podczas gdy regresja odwrotna minimalizuje odległości poziome. Linia, która minimalizuje jedną, zminimalizuje tylko drugą, jeśliyxxyyxrxy=1.0 . Musisz zdecydować, co chcesz wyjaśnić i czego chcesz użyć, aby to wyjaśnić. Odpowiedź na to pytanie podaje, która zmienna to i i określa twój model. Ponadto (ponownie po @King) nie zgadzam się z próbą powiedzenia z tych samych powodów. yxxmax=f1(ymax)

Jeśli chodzi o kwestię zmiennej ograniczonej, zwykle można sobie wyobrazić, że „rzeczywista” kwota może wzrosnąć, ale po prostu nie można jej zmierzyć. Na przykład zewnętrzny termometr za moim okiem podnosi się do 120, ale w niektórych miejscach może wynosić 140, a twoim pomiarem byłoby tylko 120. Zatem zmienna miałaby górną granicę, ale to, o czym naprawdę chciałeś pomyśleć, nie ma. W takim przypadku istnieją modele tobit dla takich właśnie sytuacji.

Innym podejściem byłoby użycie czegoś bardziej niezawodnego, takiego jak less, który może być całkowicie odpowiedni do twoich potrzeb.

gung - Przywróć Monikę
źródło
Przepraszam za opóźnienie, nie zauważyłem twojej odpowiedzi. Muszę poczytać o modelu Tobit.
Bruno
Nie ma problemu. Więcej informacji na temat natury regresji (vs. regresji odwróconej) można znaleźć tutaj . Aby uzyskać pomoc dotyczącą stosowania regresji tobit przy użyciu różnych programów, spróbuj tutaj .
gung - Przywróć Monikę
3

Po pierwsze, nie sądzę, aby sensowne było tutaj mówienie , to jak sugerowanie, że jest to funkcja jeden do jednego, chociaż jest wyjaśnione przez inne nieobserwowane zmienne.xmax=f1(ymax)xmax

Po drugie, tak naprawdę zależy to od kontekstu, który należy traktować jako zmienną niezależną lub zależną. Z mojego doświadczenia, chyba że teoria zdecydowanie sugeruje jeden sposób; tak czy inaczej jest w porządku. Z twoich komentarzy z 7 października wynika, że jest zależne, podczas gdy jest niezależne.xy

Jeśli to możliwe, spójrz na pozostałości i sprawdź, czy możesz coś z tego wycisnąć. Może istnieć inna zmienna, o której zapomniałeś; lub może pomóc w transformacji zmiennych.

Król
źródło