Nazewnictwo lewej i prawej strony w modelach regresji

10

y=β0+β1x1+ε0

Język opisujący modele regresji, taki jak bardzo prosta regresja liniowa opisana powyżej, często się różni i takie zmiany często niosą subtelne zmiany znaczeń. Na przykład część modelu po lewej stronie równania można nazwać (między innymi jestem tego nieświadomy), używając konotacji i denotacji w nawiasach:

  • Zmienna zależna (wskazówki dotyczące zależności przyczynowej)
  • Zmienna przewidywana (implikuje model prognozuje / dokonuje prognoz)
  • Zmienna odpowiedzi (implikuje przyczynowość lub przynajmniej sekwencjonowanie czasowe)
  • Zmienna wyniku (implikuje przyczynowość)

Odmiana w nomenklaturze jest również prawdziwa po prawej stronie równania (to samo zastrzeżenie, że jestem nieświadomy innych terminów):

  • Zmienna niezależna (implikuje priorytet przyczynowy, wskazówki na temat projektu eksperymentalnego)
  • Zmienna predyktora (implikuje prognozy, implikuje, że zmienna ma niezerowe oszacowanie parametru związane z nią)

W trakcie proponowania weryfikacji lub przekazywania badań miałem okazję nie tylko zostać wezwanym do użycia tego czy innego terminu, ale następnie zostać wezwanym do terminu, który postanowiłem go zastąpić. Podczas gdy dzwoniący ludzie byli oczywiście pedantyczni (NB: jestem profesjonalnym pedantem, więc sympatyzuję), ponieważ oczywiście wszyscy rozumieliśmy, co się komunikuje , wciąż się zastanawiam:

Czy w modelach regresji powszechnie stosowane są terminy dla zmiennych lewej i prawej ręki, które są agnostyczne w odniesieniu do (a) zewnętrznych zastosowań modelu, (b) związków przyczynowych między zmiennymi oraz (c) aspektów badania projekty użyte do wytworzenia samych zmiennych?

NB: Ja nie pytając o ważnych kwestiach właściwego modelowania i właściwej interpretacji (czyli zależy mi bardzo dużo o przyczynowości, badania projektu, etc.), ale jestem bardziej zainteresowany języka do mówienia o takich modelach ogólnie.

(Zdaję sobie sprawę, że „zmienne po lewej stronie” i „zmienne po prawej stronie” można, jak sądzę, interpretować jako wiarygodną odpowiedź, ale te terminy wydają się niezgrabne ... może to jest niezrozumiałe pytanie. :)

Alexis
źródło
Nie powinno być w tym zamieszania.
Carl
1
Myślę, że krótka odpowiedź brzmi „nie”. Moim zdaniem jest to uzasadnione. W przypadkach formalnych język używany do identyfikowania zmiennych powinien być dostatecznie dopracowany, aby sugerować wyróżniającą się interpretację w ramach modelu / aplikacji przeznaczonej do zastosowania / dziedziny (tj. Bardzo ważne jest, aby wiedzieć, czy przyczynowość jest implikowana w modelu regresyjnym, a właściwe użycie nomenklatury pomoże z tym).
Zachary Blumenfeld,
2
@ZacharyBlumenfeld (a) Nie odpowiadaj w komentarzach. :) (b) A jednak mówimy ogólnie o „regresji”, bez uciekania się do projektowania studiów, dziedzin wiedzy dyscyplinarnej itp. (np. wielu ludzi mówi i pisze o estymatorze najmniejszych kwadratów bez odwoływania się do projektu badania, przyczynowości itp.). Jeśli mamy język agnostyczny bez zastosowania do opisania szerokiej klasy działań statystycznych, dlaczego nie ma podobnie agnostycznego języka dla składników takich przedsięwzięć?
Alexis,
1
Nie jestem pewien, czy warto to uznać za odpowiedź, dlatego zamieszczam je jako komentarz: Może z terminologii wynika pewna terminologia (ponieważ jest rzutem na spację )? Podobnie jak projektory i projectand (teraz je tworzę, ponieważ nie pamiętam odpowiednich warunków). Ta terminologia powinna być wolna od twoich (a), (b) i (c). X(XX)1XyyX
Richard Hardy,
1
@ Kenji Zgadzam się z całego serca z większością twojej perspektywy. Nie zgadzam się jednak, że można / należy mówić tylko o równaniach regresji w stosowanym przypadku: powinniśmy mieć język, który może mówić o zmiennych lewej i prawej ręki wszystkich modeli regresji, na przykład podczas badania zastosowania takich metod na poziomie meta we wszystkich dyscyplinach.
Alexis,

Odpowiedzi:

6

To doskonałe pytanie. W rzeczywistości jest tak dobrze, że nie ma na to odpowiedzi. Według mojej najlepszej wiedzy nie ma prawdziwego terminu „agnostyczny” na opisanie Y.

Z moich doświadczeń i odczytów wynika, że ​​semantyczny jest specyficzny dla dziedziny, a także dla konkretnego modelu.

Ekonometrycy użyją terminów zmiennych zależnych przy budowaniu modelu objaśniającego. Mogą używać terminów Przewidywana lub Dopasowana lub Szacowana zmienna, gdy budują model prognostyczny, który bardziej koncentruje się na dokładnych oszacowaniach / prognozach niż na teoretycznej sile wyjaśniającej.

Tłum Big Data / Deep Learning używa zupełnie innego języka. I zwykle używają terminów Zmienna odpowiedzi lub Zmienna docelowa. Ich modele to takie czarne skrzynki, że zazwyczaj nie próbują wyjaśnić zjawiska, a raczej je przewidzieć i dokładnie oszacować. Ale w jakiś sposób nie zostaną złapani przy użyciu terminu Przewidywany. Zdecydowanie wolą terminy Odpowiedź lub Cel.

Jestem mniej zaznajomiony z pojęciem Zmienna wyniku. Może występować w innych obszarach, na które jestem mniej narażony, takich jak nauki społeczne, w tym psychologia, medycyna, badania kliniczne, epidemiologia.

W związku z powyższym nie mogłem przedstawić żadnego „agnostycznego” semantycznego opisu Y. Zamiast tego podałem trochę informacji o tym, jakiego semantycznego użyć, kierując ofertę do różnych odbiorców, a także odzwierciedlając cel twojego modelu. Podsumowując, nie sądzę, aby ktokolwiek został ranny, jeśli mówimy o zmiennej zależnej z ekonometrycznymi i zmiennej odpowiedzi lub zmiennej docelowej z typami głębokiego uczenia. Mamy nadzieję, że możesz oddzielić te tłumy od siebie, w przeciwnym razie możesz mieć słowną walkę o jedzenie.

Sympa
źródło
Chciałbym móc dać ci dodatkowy głos na „słowną walkę o jedzenie”: D
Alexis