W odkrywaniu statystyk Andy Fielda za pomocą SPSS stwierdza, że wszystkie zmienne muszą zostać przekształcone.
Jednak w publikacji: „Badanie zróżnicowanych przestrzennie zależności między użytkowaniem gruntów a jakością wody przy użyciu regresji ważonej geograficznie I: Projektowanie i ocena modelu” wyraźnie stwierdzają, że transformowane były tylko zmienne niestandardowe.
Czy ta analiza jest specyficzna? Na przykład, w porównaniu średnich, porównywanie logów z surowymi danymi przyniosłoby oczywiście znaczącą różnicę, podczas gdy przy użyciu czegoś takiego jak regresja do badania związku między zmiennymi staje się mniej ważne.
Edycja: Oto strona z pełnym tekstem w sekcji „Transformacja danych”:
A tutaj jest link do artykułu: http://www.sciencedirect.com/science/article/pii/S0048969708009121
źródło
Odpowiedzi:
Cytujesz kilka rad, z których wszystkie bez wątpienia są pomocne, ale trudno znaleźć w nich jakąś wartość.
W każdym przypadku polegam całkowicie na tym, co cytujesz jako podsumowanie. W obronie autorów chciałbym wierzyć, że dodają odpowiednie kwalifikacje w otoczeniu lub innym materiale. (Pełne odniesienia bibliograficzne w zwykłych nazwiskach, dacie, tytule (wydawcy, miejscu) lub (tytule czasopisma, tomie, stronach) poprawiłyby pytanie.)
Pole
Ta rada jest przydatna, ale w najlepszym wypadku jest bardzo uproszczona. Wydaje się, że rady Fielda były ogólnie zamierzone; na przykład odniesienie do testu Levene'a oznacza tymczasowe skupienie się na analizie wariancji.
Mówiąc bardziej ogólnie, w wielu dziedzinach jest to zwykła sytuacja, że niektóre predyktory powinny zostać przekształcone, a pozostałe pozostawione bez zmian.
Prawdą jest, że napotkanie w pracy lub rozprawie mieszanki transformacji zastosowanych w różny sposób w różnych predyktorach (w tym jako szczególny przypadek, transformacja tożsamości lub pozostawienie takiej, jaka jest) jest często kwestią niepokojącą czytelnika. Czy ta mieszanka to dobrze przemyślany zestaw wyborów, czy też była arbitralna i kapryśna?
Ponadto w serii badań spójność podejścia (zawsze stosowanie logarytmów do odpowiedzi lub nigdy jej nie robienie) bardzo pomaga w porównywaniu wyników, a odmienne podejście utrudnia.
Ale to nie znaczy, że nigdy nie byłoby powodów do mieszanki transformacji.
Nie widzę, aby większość cytowanej przez ciebie sekcji miała duży wpływ na kluczowe porady, które wyróżniasz na żółto. To samo w sobie jest powodem do niepokoju: dziwnym biznesem jest ogłaszanie bezwzględnej zasady, a następnie nie wyjaśnianie jej. I przeciwnie, nakaz „Pamiętaj” sugeruje, że uzasadnienia Fielda zostały dostarczone wcześniej w książce.
Anonimowy papier
Kontekstem są tutaj modele regresji. Jak często mówienie o OLS dziwnie kładzie nacisk na metodę szacowania, a nie model, ale możemy zrozumieć, co jest zamierzone. GWR I interpretuje się jako regresję ważoną geograficznie.
Argument polega na tym, że powinieneś przekształcić nietypowe predyktory i pozostawić pozostałe bez zmian. Ponownie rodzi się pytanie o to, co można i należy zrobić ze zmiennymi wskaźnikowymi, których normalnie nie można rozłożyć (na które jak wyżej można odpowiedzieć, wskazując, że nienormalność w tym przypadku nie stanowi problemu). Ale nakaz ma to odwrotnie, sugerując, że problemem jest nienormalność predyktorów. Skąd; modelowanie regresji nie jest częścią zakładania czegokolwiek o krańcowych rozkładach predyktorów.
Na tym forum jest tak wiele dobrych rad dotyczących transformacji, że skupiłem się na omawianiu tego, co cytujesz.
PS Dodajesz zdanie zaczynające się od „Na przykład, dla porównania średnich, porównanie dzienników z surowymi danymi oczywiście dałoby znaczącą różnicę”. Nie jestem pewien, co masz na myśli, ale porównywanie wartości dla jednej grupy z logarytmami wartości dla innej grupy byłoby po prostu nonsensowne. W ogóle nie rozumiem reszty twojego oświadczenia.
źródło
Po pierwsze, oba cytaty są mylące, ponieważ żadna transformacja zastosowana do danych przeznaczonych do zastosowania w modelu regresji nie jest wykonywana, aby zmienne pliki PDF były bardziej normalnie dystrybuowane, ma to na celu uczynienie reszt modelu bardziej symetrycznymi, ponieważ jednym założeniem w regresji klasycznej jest że błędy są gaussowskie. Oznacza to głębszy poziom rygorystyczności i surowości niż jedynie symetryczność pliku PDF.
Co więcej, oba cytaty są słabe, ponieważ nikt nie zagłębia się w motywy ich recept (przynajmniej w oparciu o dostarczone informacje). Tak się składa, że nie zgadzam się z obiema.
W wyróżnionym przez ciebie fragmencie książka SPSS twierdzi, że mieszanie transformacji (np. Log naturalny dla jednej zmiennej, pierwiastek sq dla innej) jest niedozwolone. Dlaczego to jest nielegalne? Mieszanki transformacji nie naruszają założeń regresji, o których jestem świadomy. Sprawdź wszelkie teksty regresji dotyczące założeń regresji, aby potwierdzić, że tak jest. Mieszaniny transformacyjne mogą stanowić istotny problem opisowy pod względem ich interpretacji, ale nie jest to kwestia tego, czy mieszaniny są nielegalne. Facet SPSS się myli.
Jeśli chodzi o drugi tekst, znowu transformacje są całkowicie kwestią wyboru analityka - niezależnie od tego, czy się je robi, transformuje wszystkie dane wejściowe lub niektóre zmienne, a nie inne. Nic z tego nie narusza żadnych założeń.
Tam, gdzie myślę, że drugi cytat zejdzie z torów, jest stwierdzenie, że „... aby uniknąć potencjalnej wielokoliniowości ... tylko jeden wskaźnik użytkowania gruntów (został użyty) ...” Jest to rażąco zła rada i brzmi jak coś, co niektórzy analitycy zrobią jako technikę redukcji wymiarów, w której przeanalizują kilka zmiennych i wybiorą najwyższą zmienną obciążenia dla każdego czynnika. Ta heurystyka istnieje od lat i nie jest to ani ta, której używam, ani polecam. Znowu jest to kwestia preferencji i szkolenia analityków. Ale ten punkt nie ma na celu udzielenia odpowiedzi na konkretne pytania.
Na koniec dnia oba cytaty są twierdzeniem o opiniach autorów przy braku jakichkolwiek dowodów potwierdzających, na podstawie dostarczonych informacji.
źródło