Kilka miesięcy temu odbyłem staż w tej organizacji; i jako prezent na wyjazd postanowiłem spędzić ostatni tydzień, bez względu na czas wolny, na zbadanie czynników wpływających na wynagrodzenie nauczycieli. Jednym z problemów, z jakim spotkałem się z wynagrodzeniami nauczycieli, było to, że rozkład dla danego stanu był wypaczony. Miałem wiele obserwacji, które przylgnęły do dolnej granicy spektrum płac. Próbowałem rozwiązać ten problem, włączając Porównywalny Indeks Płacy do mojej zmiennej zależnej (płace nauczycieli), ale wyniki, które znalazłem, były całkowicie nieaktualne w zakresie mojego projektu. Zamiast tego postanowiłem zarejestrować moją zmienną zależną. To było miłe, ponieważ teraz moje zarobki miały normalny rozkład i po prostu wyglądało idealnie na histogramie. Kiedy zacząłem testować, doszedłem do momentu, w którym zostałem z ostatnią niezależną zmienną, zeznaniami podatkowymi od nieruchomości. Problem z moimi normatywnymi płacami był również widoczny w moich spostrzeżeniach dotyczących zwrotu podatku od nieruchomości. Miałem ogromną liczbę zwrotów podatku od nieruchomości w dolnej części spektrum. Tak więc zarejestrowałem również tę zmienną i nadal dobrze przechodzi test hipotezy zerowej.
Nie jestem pewien, czy jest to dokładnie poprawne, ale porównanie zmiany jednej zarejestrowanej zmiennej z inną zarejestrowaną zmienną dało mi elastyczność. Zakładając, że jest to poprawne, moje równanie regresji (coś w rodzaju LogWages = B0 + B1 (LogPropertyTaxReturns)) pokazuje elastyczność między dwiema zmiennymi. Czy to ma jednak sens? Jeśli moim celem było sprawdzenie, która zmienna najbardziej wpłynęła na wynagrodzenie nauczycieli w danym hrabstwie mojego stanu, to czy pomocna jest elastyczność między tymi dwiema zmiennymi? Chcemy podnieść powiaty o najniższych wynagrodzeniach nauczycieli, aby podnieść ich standard życia, ale obawiam się, że ekstrapolowałem tak daleko od prawdziwych obserwacji, że moje końcowe równanie regresji jest bez znaczenia.
Edycja: Jednym z moich większych obaw jest to, że powinienem był zastosować model nieliniowy, aby pokazać związek. Wydaje mi się, że zmuszanie zarówno zależnej, jak i niezależnej zmiennej do współpracy w regresji liniowej jest w pewien sposób mylące.
źródło
Odpowiedzi:
Odpowiedź na pytanie brzmi „tak”, w rzeczywistości jest znacząca (przynajmniej matematycznie). Jeśli oszacujesz równanie liniowe
Ogólnie rzecz biorąc, transformacje liniowe wpływają tylko na interpretację współczynników, ale prawdziwość samej regresji (w szerokim ujęciu ekonomicznym) wynika z założeń modelu i analizowanych zjawisk ekonomicznych.
źródło
Myślę, że twoje pytanie dotyczy tego, czy użycie tej funkcjonalnej formy ma sens w twoim konkretnym modelu. Trudno powiedzieć. Podobnie jak w przypadku każdej zwykłej regresji liniowej, przyjmujesz założenie dotyczące formy funkcjonalnej. Możesz przynajmniej myśleć o tym jako o przybliżeniu liniowym, które ma sens po transformacji log-log.
źródło
Zauważ, że jako reprezentacja „prawdziwej” leżącej u podstaw decyzji podejmowane są wszystkie transformacje, które powodują regresję liniową. W rzeczywistości wszystkie modele będą błędne. Pytanie jest naprawdę: czy statystyki uzyskane z tego modelu są przydatne w rozwiązywaniu problemu ? Jeśli twoje badania koncentrują się na określeniu modelu bazowego, czy jest to chwila, która mówi ci coś ciekawego na temat tego głębszego modelu? Jeśli jesteś bardziej zorientowany na politykę, czy przybliżenie przy stałej elastyczności zbliży Cię wystarczająco do prawdy, że dalsze ulepszenia są nieistotne? Oba pytania są niezwykle trudne do odpowiedzi jako obserwator zewnętrzny. Ale jeśli jedyną alternatywą, o którą się martwisz, jest zmienna elastyczność, rodzaj testu, który opisałem powyżej, może dać ci spokój.
źródło
Pozostałe odpowiedzi dotyczyły głównych kwestii, chciałbym odpowiedzieć na „Edycję” dokonaną przez PO w pytaniu:
Zazwyczaj zapominamy, że „przekształcenie zmiennej” prowadzi do nowej zmiennej , której zachowanie może być zupełnie inne niż „oryginalne”. Najłatwiejszym przykładem jest porównanie wykresów zmiennej i jej kwadratu.
Tak rozważając logarytmy naturalne zmiennych, których już nie bada się relacje między nimi , ale o relacji między niektórych funkcji z nich.
Na szczęście matematyczną koncepcję „logarytmu” można powiązać z koncepcją „elastyczności”, która opisuje zależność między zmianami procentowymi, co rozumiemy z ekonomicznego punktu widzenia i możemy w sposób znaczący interpretować i wykorzystywać.
Jeśli można zasadnie powiedzieć, że zmienne wykazują „zależność liniową w logarytmach”, oznacza to, że ich poziomy (tj. Zmienne rzeczywiste) mają związek nieliniowy:
Dlaczego więc nie oszacować modelu nieliniowego?
W zasadzie (matematycznej) nie ma żadnego powodu, dlaczego nie. Niektóre praktyczne problemy to:
1) Istnieje zbyt wiele form relacji nieliniowych, istnieje tylko jedna relacja liniowa (mówiąc strukturalnie). W przypadku najbardziej odpowiedniej specyfikacji chodzi o „koszty wyszukiwania”.
2) Uzyskana zależność nieliniowa może nie mieć jasnego wyjaśnienia ekonomicznego . Dlaczego to jest problem? Ponieważ nie odkrywamy tutaj „praw natury”, niezmienionych w czasie i przestrzeni. Zbliżamy się do zjawiska społecznego. Przybliżenie, które ponadto można przedstawić jedynie jako wzór matematyczny, bez uzasadnienia ekonomicznego, które je potwierdza i popiera, sprawia, że wynik jest bardzo cienki.
3) Estymacja nieliniowa jest mniej stabilna, jeśli chodzi o mechanikę algorytmu estymacji.
źródło
Powiedziałbym, że twój model w tym przypadku nie wydaje się sensowny, jeśli twoim „ celem było sprawdzenie, która zmienna najbardziej wpłynęła na wynagrodzenie nauczycieli w danym hrabstwie mojego stanu ”. Właśnie pokazałeś, jaka jest korelacja między (dziennikami) płac a zeznaniami podatkowymi od nieruchomości. Powinieneś przynajmniej użyć regresji wielokrotnej.
Oczywiście możesz kontynuować i opracować w pełni rozwiniętą, właściwą strategię identyfikacji z odpowiednimi narzędziami metodologicznymi, aby oszacować intensywność każdego efektu przyczynowego i znaleźć największy ... W rzeczywistości najprawdopodobniej nie będziesz w stanie zrobić to, biorąc pod uwagę złożoność takiego zadania. To tylko kontinuum udoskonaleń, a ty jesteś w pobliżu najokrutniejszego możliwego modelu stosowanego do wyjaśniania płac, bardzo daleko od tego, co uważam za akceptowalne przybliżenie odpowiedzi na pytanie zawarte w twoim celu. Powinieneś spróbować skorzystać z pomocy ekonometrii.
źródło