Język opisujący modele regresji, taki jak bardzo prosta regresja liniowa opisana powyżej, często się różni i takie zmiany często niosą subtelne zmiany znaczeń. Na przykład część modelu po lewej stronie równania można nazwać (między innymi jestem tego nieświadomy), używając konotacji i denotacji w nawiasach:
- Zmienna zależna (wskazówki dotyczące zależności przyczynowej)
- Zmienna przewidywana (implikuje model prognozuje / dokonuje prognoz)
- Zmienna odpowiedzi (implikuje przyczynowość lub przynajmniej sekwencjonowanie czasowe)
- Zmienna wyniku (implikuje przyczynowość)
Odmiana w nomenklaturze jest również prawdziwa po prawej stronie równania (to samo zastrzeżenie, że jestem nieświadomy innych terminów):
- Zmienna niezależna (implikuje priorytet przyczynowy, wskazówki na temat projektu eksperymentalnego)
- Zmienna predyktora (implikuje prognozy, implikuje, że zmienna ma niezerowe oszacowanie parametru związane z nią)
W trakcie proponowania weryfikacji lub przekazywania badań miałem okazję nie tylko zostać wezwanym do użycia tego czy innego terminu, ale następnie zostać wezwanym do terminu, który postanowiłem go zastąpić. Podczas gdy dzwoniący ludzie byli oczywiście pedantyczni (NB: jestem profesjonalnym pedantem, więc sympatyzuję), ponieważ oczywiście wszyscy rozumieliśmy, co się komunikuje , wciąż się zastanawiam:
Czy w modelach regresji powszechnie stosowane są terminy dla zmiennych lewej i prawej ręki, które są agnostyczne w odniesieniu do (a) zewnętrznych zastosowań modelu, (b) związków przyczynowych między zmiennymi oraz (c) aspektów badania projekty użyte do wytworzenia samych zmiennych?
NB: Ja nie pytając o ważnych kwestiach właściwego modelowania i właściwej interpretacji (czyli zależy mi bardzo dużo o przyczynowości, badania projektu, etc.), ale jestem bardziej zainteresowany języka do mówienia o takich modelach ogólnie.
(Zdaję sobie sprawę, że „zmienne po lewej stronie” i „zmienne po prawej stronie” można, jak sądzę, interpretować jako wiarygodną odpowiedź, ale te terminy wydają się niezgrabne ... może to jest niezrozumiałe pytanie. :)
źródło
Odpowiedzi:
To doskonałe pytanie. W rzeczywistości jest tak dobrze, że nie ma na to odpowiedzi. Według mojej najlepszej wiedzy nie ma prawdziwego terminu „agnostyczny” na opisanie Y.
Z moich doświadczeń i odczytów wynika, że semantyczny jest specyficzny dla dziedziny, a także dla konkretnego modelu.
Ekonometrycy użyją terminów zmiennych zależnych przy budowaniu modelu objaśniającego. Mogą używać terminów Przewidywana lub Dopasowana lub Szacowana zmienna, gdy budują model prognostyczny, który bardziej koncentruje się na dokładnych oszacowaniach / prognozach niż na teoretycznej sile wyjaśniającej.
Tłum Big Data / Deep Learning używa zupełnie innego języka. I zwykle używają terminów Zmienna odpowiedzi lub Zmienna docelowa. Ich modele to takie czarne skrzynki, że zazwyczaj nie próbują wyjaśnić zjawiska, a raczej je przewidzieć i dokładnie oszacować. Ale w jakiś sposób nie zostaną złapani przy użyciu terminu Przewidywany. Zdecydowanie wolą terminy Odpowiedź lub Cel.
Jestem mniej zaznajomiony z pojęciem Zmienna wyniku. Może występować w innych obszarach, na które jestem mniej narażony, takich jak nauki społeczne, w tym psychologia, medycyna, badania kliniczne, epidemiologia.
W związku z powyższym nie mogłem przedstawić żadnego „agnostycznego” semantycznego opisu Y. Zamiast tego podałem trochę informacji o tym, jakiego semantycznego użyć, kierując ofertę do różnych odbiorców, a także odzwierciedlając cel twojego modelu. Podsumowując, nie sądzę, aby ktokolwiek został ranny, jeśli mówimy o zmiennej zależnej z ekonometrycznymi i zmiennej odpowiedzi lub zmiennej docelowej z typami głębokiego uczenia. Mamy nadzieję, że możesz oddzielić te tłumy od siebie, w przeciwnym razie możesz mieć słowną walkę o jedzenie.
źródło