W kwietniu uczestniczyłem w przemówieniu na cyklicznym seminarium grupowym UMD Math Department Statistics zatytułowanym „Wyjaśnić czy przewidzieć?”. Rozmowę wygłosił prof. Galit Shmueli, który wykłada w Smith Business School w UMD. Jej przemówienie opierało się na badaniach, które przeprowadziła dla artykułu zatytułowanego „Modelowanie predykcyjne vs. model wyjaśniający w badaniach IS” oraz kolejnego dokumentu roboczego zatytułowanego „Wyjaśnić czy przewidzieć?” .
Argument dr Shmueli jest taki, że terminy przewidujące i objaśniające w kontekście modelowania statystycznego uległy splątaniu, a literaturze statystycznej brakuje dokładnej dyskusji na temat różnic. W artykule porównuje oba i mówi o ich praktycznych implikacjach. Zachęcam do lektury gazet.
Pytania, które chciałbym zadać społeczności praktyków, to:
- Jak definiujesz ćwiczenie predykcyjne a wyjaśniające / opisowe? Przydałoby się porozmawiać o konkretnej aplikacji.
- Czy kiedykolwiek wpadłeś w pułapkę używania jednego, gdy zamierzasz użyć drugiego? Na pewno mam. Skąd wiesz, którego użyć?
źródło
Odpowiedzi:
W jednym zdaniu
Modelowanie predykcyjne polega na „tym, co może się zdarzyć?”, Podczas gdy modelowanie wyjaśniające dotyczy „co możemy z tym zrobić?”
W wielu zdaniach
Myślę, że główna różnica polega na tym, co należy zrobić z analizą. Sugerowałbym, że wyjaśnienie jest znacznie ważniejsze dla interwencji niż przewidywanie. Jeśli chcesz zrobić coś, aby zmienić wynik, najlepiej staraj się wyjaśnić, dlaczego tak jest. Modelowanie objaśniające, jeśli zostanie wykonane dobrze, powie Ci, jak interweniować (które dane wejściowe należy dostosować). Jeśli jednak chcesz po prostu zrozumieć, jaka będzie przyszłość, bez zamiaru (lub zdolności) do interwencji, modelowanie predykcyjne jest bardziej prawdopodobne.
Jako niewiarygodnie luźny przykład, wykorzystujący „dane dotyczące raka”.
Modelowanie predykcyjne z wykorzystaniem „danych na temat raka” byłoby odpowiednie (a przynajmniej przydatne), gdybyś finansował oddziały raka różnych szpitali. Naprawdę nie musisz wyjaśniać, dlaczego ludzie chorują na raka, potrzebujesz jedynie dokładnego oszacowania, ile usług będzie wymaganych. Modelowanie objaśniające prawdopodobnie niewiele by tu pomogło. Na przykład wiedza o tym, że palenie prowadzi do wyższego ryzyka raka, sama w sobie nie mówi, czy należy przeznaczyć więcej środków na oddział A czy oddział B.
Objaśniające modelowanie „danych na temat raka” byłoby właściwe, gdybyś chciał zmniejszyć ogólnokrajowy wskaźnik zachorowań na raka - modelowanie predykcyjne byłoby tutaj dość przestarzałe. Zdolność do dokładnego przewidywania zachorowań na raka raczej nie pomoże ci zdecydować, jak ją zmniejszyć. Jednak wiedza, że palenie prowadzi do wyższego ryzyka zachorowania na raka, jest cenną informacją - ponieważ jeśli zmniejszysz częstość palenia (np. Zwiększając koszty papierosów), prowadzi to do większej liczby osób o mniejszym ryzyku, co (miejmy nadzieję) prowadzi do oczekiwanego zmniejszenia zachorowalności na raka stawki.
Patrząc na ten problem w ten sposób, sądzę, że modelowanie objaśniające skupiałoby się głównie na zmiennych, które kontrolują użytkownik, bezpośrednio lub pośrednio. Może zaistnieć potrzeba zebrania innych zmiennych, ale jeśli nie możesz zmienić żadnej ze zmiennych w analizie, wątpię, aby modelowanie objaśniające było przydatne, z wyjątkiem może dającego chęć uzyskania kontroli lub wpływu na te zmienne które są ważne. Modelowanie predykcyjne, z grubsza, po prostu szuka powiązań między zmiennymi, niezależnie od tego, czy są kontrolowane przez użytkownika, czy nie. Musisz tylko znać dane wejściowe / cechy / zmienne niezależne / itp., Aby dokonać prognozy, ale musisz mieć możliwość modyfikowania lub wpływania na dane wejściowe / cechy / zmienne niezależne / itp. W celu interwencji i zmiany wyniku .
źródło
Moim zdaniem różnice są następujące:
Wyjaśniający / opisowy
Szukając odpowiedzi wyjaśniającej / opisowej, główny nacisk kładziony jest na dane, które posiadamy, i staramy się odkryć podstawowe relacje między danymi po uwzględnieniu hałasu.
Przykład: Czy to prawda, że regularne ćwiczenia (powiedzmy 30 minut dziennie) prowadzą do obniżenia ciśnienia krwi? Aby odpowiedzieć na to pytanie, możemy gromadzić dane od pacjentów o ich schemacie ćwiczeń i ich wartości ciśnienia krwi w czasie. Celem jest sprawdzenie, czy możemy wyjaśnić zmiany ciśnienia krwi poprzez zmiany w schemacie ćwiczeń.
Na ciśnienie krwi wpływa nie tylko wysiłek fizyczny, ale także różnorodne inne czynniki, takie jak ilość sodu spożywana przez osobę itp. Te inne czynniki można by uznać za hałas w powyższym przykładzie, ponieważ nacisk kładziony jest na wyjaśnienie związku między schematem ćwiczeń a ciśnienie krwi.
Prognoza
Wykonując ćwiczenie predykcyjne, dokonujemy ekstrapolacji w nieznane, wykorzystując znane relacje między dostępnymi danymi. Znany związek może wynikać z analizy wyjaśniającej / opisowej lub innej techniki.
Przykład: Jeśli ćwiczę 1 godzinę dziennie, do jakiego stopnia moje ciśnienie krwi może spaść? Aby odpowiedzieć na to pytanie, możemy zastosować wcześniej odkryty związek między ciśnieniem krwi a schematem ćwiczeń w celu wykonania prognozy.
W powyższym kontekście nie skupia się na wyjaśnieniu, chociaż model wyjaśniający może pomóc w procesie przewidywania. Istnieją również podejścia nieobjaśniające (np. Sieci neuronowe), które są dobre w przewidywaniu nieznanego, niekoniecznie poszerzając naszą wiedzę o naturze podstawowej zależności między zmiennymi.
źródło
Jednym praktycznym problemem, który się tu pojawia, jest wybór zmiennych w modelowaniu. Zmienna może być ważną zmienną objaśniającą (np. Jest istotna statystycznie), ale może nie być użyteczna do celów predykcyjnych (tj. Jej włączenie do modelu prowadzi do gorszej dokładności predykcyjnej). Widzę ten błąd prawie codziennie w publikowanych artykułach.
Kolejna różnica polega na rozróżnieniu między analizą głównych składników a analizą czynnikową. PCA jest często stosowane w prognozach, ale nie jest tak przydatne do wyjaśnienia. FA obejmuje dodatkowy etap rotacji, który ma na celu poprawę interpretacji (a tym samym wyjaśnienia). Na blogu Galit Shmueli jest dzisiaj fajny post na ten temat .
Aktualizacja: trzeci przypadek pojawia się w szeregach czasowych, kiedy zmienna może być ważną zmienną objaśniającą, ale po prostu nie jest dostępna na przyszłość. Na przykład kredyty mieszkaniowe mogą być silnie powiązane z PKB, ale nie ma to większego zastosowania do przewidywania przyszłych kredytów mieszkaniowych, chyba że mamy również dobre prognozy PKB.
źródło
Chociaż niektórym osobom najłatwiej jest pomyśleć o rozróżnieniu pod względem zastosowanego modelu / algorytmu (np. Sieci neuronowe = predykcyjne), jest to tylko jeden szczególny aspekt rozróżnienia / przewidywania. Oto zestaw slajdów , których używam podczas mojego kursu eksploracji danych, aby uczyć regresji liniowej z obu stron. Nawet przy samej regresji liniowej i na tym niewielkim przykładzie pojawiają się różne problemy, które prowadzą do różnych modeli celów wyjaśniających vs. predykcyjnych (wybór zmiennych, wybór zmiennych, miary wydajności itp.)
Galit
źródło
Przykład: Klasyczny przykład, który widziałem, dotyczy kontekstu przewidywania ludzkich wyników. Własna skuteczność (tj. Stopień, w jakim dana osoba myśli, że może dobrze wykonać zadanie) jest często silnym predyktorem wykonania zadania. Tak więc, jeśli umieścisz własną skuteczność w regresji wielokrotnej wraz z innymi zmiennymi, takimi jak inteligencja i stopień wcześniejszego doświadczenia, często okaże się, że samo skuteczność jest silnym predyktorem.
Doprowadziło to niektórych badaczy do zasugerowania, że poczucie własnej skuteczności powoduje wykonanie zadania. I te skuteczne interwencje to takie, które koncentrują się na zwiększeniu poczucia własnej skuteczności.
Jednak alternatywny model teoretyczny postrzega skuteczność w dużej mierze jako konsekwencję wykonania zadania. Tj. Jeśli jesteś dobry, będziesz o tym wiedział. W tych ramach interwencje powinny koncentrować się na zwiększaniu faktycznych kompetencji, a nie kompetencji postrzeganych.
Tak więc włączenie zmiennej takiej jak skuteczność może zwiększyć przewidywanie, ale przy założeniu, że zastosujesz model skuteczności jako konsekwencja, nie należy go uwzględniać jako predyktora, jeśli celem modelu jest wyjaśnienie procesów przyczynowych wpływających na wydajność.
To oczywiście rodzi pytanie, jak opracować i zweryfikować przyczynowy model teoretyczny. To wyraźnie opiera się na wielu badaniach, najlepiej z pewnymi eksperymentalnymi manipulacjami i spójnym argumentem na temat procesów dynamicznych.
Proksymalny a dystalny : widziałem podobne problemy, gdy badacze są zainteresowani skutkami przyczyn dystalnych i proksymalnych. Przyczyny bliższe zwykle przewidują przyczyny lepsze niż przyczyny dystalne. Jednak teoretycznym zainteresowaniem może być zrozumienie sposobów działania przyczyn dystalnych i bliższych.
Kwestia wyboru zmiennej : Wreszcie, ogromnym problemem w badaniach nauk społecznych jest kwestia wyboru zmiennych. W każdym badaniu istnieje nieskończona liczba zmiennych, które mogły zostać zmierzone, ale nie były. Dlatego interpretacja modeli musi uwzględniać implikacje tego przy interpretacji teoretycznych.
źródło
Modelowanie statystyczne: Dwie kultury (2001) L. Breimana jest być może najlepszą publikacją na ten temat. Jego główne wnioski (patrz także odpowiedzi innych wybitnych statystyk na końcu dokumentu) są następujące:
źródło
Nie czytałem jej pracy poza streszczeniem powiązanego artykułu, ale mam wrażenie, że rozróżnienie między „wyjaśnieniem” i „przewidywaniem” powinno zostać odrzucone i zastąpione rozróżnieniem między celami praktykującego, które są albo „ przyczynowy ”lub„ predykcyjny ”. Ogólnie rzecz biorąc, myślę, że „wyjaśnienie” jest tak niejasnym słowem, że prawie nic nie znaczy. Na przykład, czy prawo Hooke'a jest objaśniające czy przewidujące? Na drugim końcu spektrum, czy predykcyjne dokładne systemy rekomendacji są dobrymi modelami przyczynowymi wyraźnych ocen pozycji? Myślę, że wszyscy podzielamy intuicję, że celem nauki jest wyjaśnienie, podczas gdy celem technologii jest przewidywanie; i ta intuicja w jakiś sposób gubi się w związku z używanymi przez nas narzędziami, takimi jak nadzorowane algorytmy uczenia się,
Powiedziawszy to wszystko, być może jedyne słowo, które chciałbym zastosować do modelu, jest możliwe do interpretacji. Regresje są zwykle interpretowalne; sieci neuronowe z wieloma warstwami często tak nie są. Myślę, że ludzie czasami naiwnie zakładają, że model, który można zinterpretować, dostarcza informacji przyczynowo-skutkowych, podczas gdy modele niemożliwe do interpretacji dostarczają jedynie informacji predykcyjnych. To podejście wydaje mi się po prostu zdezorientowane.
źródło
Nadal jestem nieco niejasny co do pytania. Powiedziawszy to, moim zdaniem podstawową różnicą między modelami predykcyjnymi i objaśniającymi jest różnica w ich ukierunkowaniu.
Modele wyjaśniające
Modele predykcyjne
Celem modeli predykcyjnych jest przewidzieć coś. W związku z tym mniej koncentrują się na parsimony lub prostocie, ale bardziej na zdolności przewidywania zmiennej zależnej.
Jednak powyższe stanowi nieco sztuczne rozróżnienie, ponieważ modele objaśniające mogą być używane do przewidywania, a czasami modele predykcyjne mogą coś wyjaśnić.
źródło
jak już powiedzieli inni, rozróżnienie jest nieco pozbawione sensu, chyba że chodzi o cele badacza.
Brad Efron, jeden z komentatorów artykułu The Two Cultures , poczynił następujące spostrzeżenie (jak omówiono w moim wcześniejszym pytaniu ):
Niektóre dziedziny (np. Medycyna) kładą duży nacisk na dopasowanie modelu jako proces wyjaśniający (rozkład itp.), Jako sposób na zrozumienie leżącego u podstaw procesu, który generuje dane. Inne dziedziny mniej się tym zajmują i będą zadowolone z modelu „czarnej skrzynki”, który ma bardzo duży sukces predykcyjny. Może to również wpłynąć na proces budowy modelu.
źródło
Z szacunkiem to pytanie można lepiej skoncentrować. Czy ludzie używali kiedyś jednego terminu, gdy drugi był bardziej odpowiedni? Tak oczywiście. Czasami jest to wystarczająco jasne z kontekstu lub nie chcesz być pedantyczny. Czasami ludzie są po prostu niechlujni lub leniwi w terminologii. Dotyczy to wielu osób i na pewno nie jestem lepszy.
Potencjalna wartość (omawianie wyjaśnień vs. przewidywanie CV) polega na wyjaśnieniu różnicy między tymi dwoma podejściami. Krótko mówiąc, rozróżnienie koncentruje się na roli przyczynowości. Jeśli chcesz zrozumieć jakąś dynamikę na świecie i wyjaśnić, dlaczego coś dzieje się w ten sposób, musisz zidentyfikować związki przyczynowe między odpowiednimi zmiennymi. Aby przewidzieć, możesz zignorować przyczynowość. Na przykład możesz przewidzieć efekt na podstawie wiedzy o jego przyczynie; możesz przewidzieć istnienie przyczyny na podstawie wiedzy, że skutek wystąpił; i możesz przewidzieć przybliżony poziom jednego efektu, znając inny efekt, który jest napędzany przez tę samą przyczynę. Dlaczego ktoś miałby to zrobić? Aby zwiększyć swoją wiedzę na temat tego, co może się wydarzyć w przyszłości, aby mogli odpowiednio zaplanować. Na przykład komisja ds. Zwolnień warunkowych może chcieć przewidzieć prawdopodobieństwo ponownego skazania skazanego w przypadku zwolnienia warunkowego. Nie jest to jednak wystarczające do wyjaśnienia. Oczywiście, oszacowanie prawdziwego związku przyczynowego między dwiema zmiennymi może być niezwykle trudne. Ponadto modele, które wychwytują (jak się uważa) rzeczywiste związki przyczynowe, są często gorsze przy prognozowaniu. Więc dlaczego to robisz? Po pierwsze, większość tego dokonuje się w nauce, gdzie zrozumienie dąży się dla samego siebie. Po drugie, jeśli potrafimy rzetelnie wykryć prawdziwe przyczyny i rozwinąć zdolność do wpływania na nie, możemy wywrzeć pewien wpływ na skutki.
W odniesieniu do strategii modelowania statystycznego nie ma dużej różnicy. Różnica polega przede wszystkim na sposobie przeprowadzenia badania. Jeśli Twoim celem jest możliwość przewidywania, dowiedz się, jakie informacje będą dostępne dla użytkowników modelu, kiedy będą musieli dokonać prognozy. Informacje, do których nie będą mieli dostępu, nie mają żadnej wartości. Jeśli najprawdopodobniej będą chcieli przewidzieć na pewnym poziomie (lub w wąskim zakresie) predyktorów, spróbuj wyśrodkować próbkowany zakres predyktora na tym poziomie i tam nadpróbkować. Na przykład, jeśli komisja ds. Zwolnień warunkowych będzie chciała głównie wiedzieć o przestępcach z 2 głównymi wyrokami skazującymi, możesz zebrać informacje o przestępcach z 1, 2 i 3 wyrokami skazującymi. Z drugiej strony ocena stanu przyczynowego zmiennej zasadniczo wymaga eksperymentu. To jest, jednostki eksperymentalne należy przypisywać losowo do wcześniej określonych poziomów zmiennych objaśniających. Jeśli istnieje obawa, czy charakter efektu przyczynowego zależy od jakiejś innej zmiennej, zmienna ta musi zostać uwzględniona w eksperymencie. Jeśli nie jest możliwe przeprowadzenie prawdziwego eksperymentu, stajesz w obliczu znacznie trudniejszej sytuacji, takiej, która jest zbyt skomplikowana, aby tu wejść.
źródło
Większość odpowiedzi pomogła wyjaśnić, czym jest modelowanie wyjaśnień i modelowanie prognozowania i dlaczego się różnią. Jak dotąd nie jest jasne, jak się różnią. Pomyślałem więc, że podam przykład, który może być przydatny.
Załóżmy, że jesteśmy zainteresowani modelowaniem College GPA jako funkcją przygotowania akademickiego. Jako środki przygotowania akademickiego mamy:
Strategia prognozowania
Jeśli celem jest przewidywanie, mógłbym użyć wszystkich tych zmiennych jednocześnie w modelu liniowym, a moją podstawową troską byłaby dokładność predykcyjna. Niezależnie od tego, które zmienne okażą się najbardziej przydatne do przewidywania GPA College, zostaną uwzględnione w ostatecznym modelu.
Strategia wyjaśniania
Jeśli celem jest wyjaśnienie, mogę być bardziej zaniepokojony redukcją danych i dokładnie przemyśleć korelacje między zmiennymi niezależnymi. Moją podstawową troską będzie interpretacja współczynników.
Przykład
W typowym wielowymiarowym problemie ze skorelowanymi predyktorami nierzadko obserwowane są współczynniki regresji, które są „nieoczekiwane”. Biorąc pod uwagę wzajemne relacje między zmiennymi niezależnymi, nie byłoby zaskoczeniem, aby zobaczyć częściowe współczynniki dla niektórych z tych zmiennych, które nie są w tym samym kierunku co ich relacje zerowego rzędu i które mogą wydawać się sprzeczne z intuicją i trudne do wyjaśnienia.
Załóżmy na przykład, że model sugeruje, że (biorąc pod uwagę wyniki testów Aptitude i liczbę pomyślnie ukończonych testów AP) wyższe GPA dla szkół średnich są powiązane z niższymi GPA. Nie jest to problem przewidywania, ale stwarza problemy dla modelu wyjaśniającego, w którym związek taki trudno interpretować . Ten model może dostarczyć najlepszych prognoz z próby, ale niewiele pomaga nam zrozumieć związek między przygotowaniem akademickim a studiami GPA.
Zamiast tego strategia wyjaśniająca może poszukiwać pewnej formy redukcji zmiennych, takiej jak główne składniki, analiza czynnikowa lub SEM, aby:
Takie strategie mogą zmniejszyć moc predykcyjną modelu, ale mogą lepiej zrozumieć związek przygotowania akademickiego z GPA College.
źródło
Chciałbym zaoferować skoncentrowany na modelu pogląd na tę sprawę.
Modelowanie predykcyjne dzieje się w większości analiz. Na przykład badacz tworzy model regresji z szeregiem predyktorów. Współczynniki regresji reprezentują następnie prognostyczne porównania między grupami. Aspekt predykcyjny pochodzi z modelu prawdopodobieństwa: wnioskowania dokonuje się w odniesieniu do modelu superpopulacji, który mógł wytworzyć obserwowaną populację lub próbkę. Celem tego modelu jest przewidywanie nowych wyników dla jednostek wyłaniających się z tej superpopulacji. Często jest to próżny cel, ponieważ rzeczy zawsze się zmieniają, szczególnie w świecie społecznym. Lub ponieważ twój model dotyczy rzadkich jednostek, takich jak kraje i nie możesz narysować nowej próbki. Przydatność modelu w tym przypadku pozostawia się do uznania analityka.
Kiedy próbujesz uogólnić wyniki na inne grupy lub przyszłe jednostki, jest to nadal prognoza, ale innego rodzaju. Możemy to nazwać na przykład prognozowaniem. Kluczową kwestią jest to, że moc predykcyjna modeli szacowanych ma domyślnie charakter opisowy . Porównujesz wyniki między grupami i hipotetycznie model prawdopodobieństwa dla tych porównań, ale nie możesz wnioskować, że porównania te stanowią skutki przyczynowe.
Powodem jest to, że te grupy mogą cierpieć z powodu błędu selekcji . To znaczy, mogą naturalnie mieć wyższy wynik w wyniku zainteresowania, niezależnie od leczenia (hipotetyczna interwencja przyczynowa). Lub mogą podlegać różnej wielkości efektu leczenia niż inne grupy. Właśnie dlatego, szczególnie w przypadku danych obserwacyjnych, modele szacunkowe zasadniczo dotyczą porównań predykcyjnych, a nie wyjaśnień. Wyjaśnienie dotyczy identyfikacji i oszacowania efektu przyczynowego i wymaga dobrze zaprojektowanych eksperymentów lub przemyślanego wykorzystania zmiennych instrumentalnych. W takim przypadku porównania predykcyjne są odcięte od wszelkich stronniczości selekcji i reprezentują skutki przyczynowe. Model można zatem uznać za objaśniający.
Odkryłem, że myślenie w tych terminach często wyjaśniało, co tak naprawdę robiłem, konfigurując model niektórych danych.
źródło
Możemy się nauczyć znacznie więcej, niż nam się wydaje, z modeli „predykcyjnych” Black box. Kluczem jest przeprowadzenie różnych rodzajów analiz wrażliwości i symulacji, aby naprawdę zrozumieć, jak wpływ na model OUTPUT mają zmiany w przestrzeni INPUT. W tym sensie nawet model czysto przewidujący może dostarczyć wyjaśnienia. Jest to kwestia często pomijana lub źle rozumiana przez społeczność badawczą. To, że nie rozumiemy, dlaczego algorytm działa, nie oznacza, że algorytmowi brakuje mocy wyjaśniającej ...
Ogólnie rzecz biorąc, zwięzła odpowiedź probabilislogic jest absolutnie poprawna ...
źródło
Jest różnica między tym, co ona nazywa objaśniające i predykcyjne aplikacje w statystykach. Mówi, że powinniśmy wiedzieć za każdym razem, kiedy używamy jednego lub drugiego, który dokładnie jest używany. Mówi, że często je pomieszamy, stąd zamieszanie .
Zgadzam się, że w zastosowaniach w naukach społecznych rozróżnienie jest rozsądne, ale w naukach przyrodniczych są i powinny być takie same. Nazywam je również wnioskowaniem a prognozowaniem i zgadzam się, że w naukach społecznych nie należy ich mieszać.
Zacznę od nauk przyrodniczych. W fizyce koncentrujemy się na wyjaśnianiu, staramy się zrozumieć, jak działa świat, co powoduje, co itd. Tak więc skupiamy się na przyczynowości, wnioskowaniu i tym podobnych. Z drugiej strony aspekt predykcyjny jest również częścią procesu naukowego. W rzeczywistości sposobem udowodnienia teorii, która już dobrze wyjaśniła obserwacje (pomyśl o próbie), jest przewidywanie nowych obserwacji, a następnie sprawdzenie, jak działało przewidywanie. Każda teoria, która nie posiada zdolności predykcyjnych, będzie miała duże trudności z uzyskaniem akceptacji w fizyce. Dlatego eksperymenty takie jak Michelson-Morley są tak ważne.
Niestety w naukach społecznych zjawiska leżące u ich podstaw są niestabilne, niepowtarzalne, odtwarzalne. Jeśli obserwujesz rozpad jąder, to za każdym razem będziesz obserwować te same wyniki i te same wyniki, które ja lub koleś sto lat temu. Nie z ekonomii ani finansów. Również zdolność do przeprowadzania eksperymentów jest bardzo ograniczona, prawie nie istnieje dla wszystkich praktycznych celów, obserwujemy i przeprowadzamy tylko losowe próbkiobserwacji. Mogę kontynuować, ale chodzi o to, że zjawiska, z którymi mamy do czynienia, są bardzo niestabilne, stąd nasze teorie nie są tej samej jakości, co w fizyce. Dlatego jednym ze sposobów, w jaki radzimy sobie z sytuacją, jest skupienie się na wnioskowaniu (gdy próbujesz zrozumieć, co jest przyczyną lub na co wpływa) lub prognozowaniu (po prostu powiedz, co Twoim zdaniem stanie się z tym lub zignoruj strukturę).
źródło
Model strukturalny dałby wyjaśnienie, a model predykcyjny dałby prognozy. Model strukturalny miałby zmienne ukryte. Model strukturalny to jednoczesne zwieńczenie regresji i analizy czynnikowej
Zmienne utajone przejawiają się w postaci wielokolinearności w modelach predykcyjnych (regresja).
źródło