Czy do wnioskowania przyczynowego można zastosować walidację krzyżową?

37

We wszystkich kontekstach znam walidację krzyżową, która jest stosowana wyłącznie w celu zwiększenia dokładności predykcyjnej. Czy można rozszerzyć logikę walidacji krzyżowej przy szacowaniu obiektywnych związków między zmiennymi?

Podczas gdy ten artykuł Richarda Berka demonstruje użycie trzymanej próbki do wyboru parametrów w „regresyjnym” modelu regresji (i pokazuje, dlaczego stopniowy wybór parametrów nie jest dobrym pomysłem), wciąż nie rozumiem, jak to dokładnie zapewnia obiektywne szacunki wpływu X mają na Y więcej niż wybór modelu opartego na logice i wcześniejszej wiedzy na ten temat.

Proszę, aby ludzie przytaczali przykłady, w których wykorzystano próbkę powstrzymującą w celu wnioskowania przyczynowego lub ogólne eseje, które mogą pomóc w moim zrozumieniu. Nie wątpię również, że moja koncepcja walidacji krzyżowej jest naiwna, a więc jeśli tak, to tak. Wydaje się, że użycie próbki trzymanej od razu byłoby podatne na wnioskowanie przyczynowe, ale nie znam żadnej pracy, która by to zrobiła, ani tego, jak by to zrobili.

Cytat za papier Berka:

Wnioskowanie statystyczne po wyborze modelu : Richard Berk, Lawrence Brown, Linda Zhao Journal of Quantitative Criminology, tom. 26, nr 2. (1 czerwca 2010 r.), S. 217–236.

Wersja PDF tutaj

To pytanie dotyczące analizy danych eksploracyjnych w badaniach małej próby autorstwa Chl skłoniło to pytanie.

Andy W.
źródło

Odpowiedzi:

19

Myślę, że warto przejrzeć to, co wiemy o walidacji krzyżowej. Wyniki statystyczne dotyczące CV dzielą się na dwie klasy: wydajność i spójność.

Wydajność jest tym, czym zwykle zajmujemy się, budując modele predykcyjne. Chodzi o to, że używamy CV do ustalenia modelu z asymptotycznymi gwarancjami dotyczącymi funkcji straty. Najbardziej znany wynik wynika z Stone 1977 i pokazuje, że LOO CV jest asymptotycznie równoważne AIC. Ale Brett stanowi dobry przykład, w którym można znaleźć model predykcyjny, który nie informuje cię o mechanizmie przyczynowym.

k/n1n

Y=βX+eYX

Być może mógłbyś powiedzieć, że CV może pomóc w wnioskowaniu przyczynowym, identyfikując prawdziwy model (pod warunkiem, że możesz spełnić kryteria spójności!). Ale dotarło to tylko do tej pory; Samo CV nie wykonuje żadnej pracy w ramach żadnego wnioskowania przyczynowego.

Jeśli bardziej interesuje Cię to, co możemy powiedzieć o walidacji krzyżowej, poleciłbym Shao 1997 zamiast powszechnie cytowanego artykułu z 1993 roku:

Możesz przeglądać najważniejsze wyniki, ale interesujące jest przeczytanie poniższej dyskusji. Myślałem, że komentarze Rao i Tibshirani oraz Stone'a były szczególnie wnikliwe. Należy jednak pamiętać, że podczas omawiania spójności nigdy nie wysuwa się żadnych roszczeń dotyczących związku przyczynowego.

ars
źródło
Dziękuję za wszystkie referencje, zwłaszcza odpowiedzi Judei Pearl (będę musiał kupić książkę w oparciu o wszystkie wspaniałe informacje z tych krótkich esejów odpowiedzi).
Andy W
1
Komentarze do downvote są zawsze mile widziane!
chl
18

To naprawdę interesujące pytanie i nie oferuję żadnych konkretnych cytatów. Ogólnie jednak powiedziałbym, że NIE, sama w sobie walidacja krzyżowa nie daje żadnego wglądu w przyczynowość. W przypadku braku zaprojektowanego eksperymentu kwestia przyczynowości jest zawsze niepewna. Jak sugerujesz, cross-validation może i poprawi dokładność predykcyjną. To samo nie mówi nic o przyczynowości.

Bez zaprojektowanego eksperymentu wnioskowanie przyczynowe wymagałoby modelu, który zawiera wszystkie istotne predyktory - czego rzadko możemy zagwarantować w badaniu obserwacyjnym. Co więcej, prosta zmienna opóźnienia, na przykład (lub cokolwiek silnie skorelowanego z jakimkolwiek wynikiem, który staraliśmy się przewidzieć) stworzyłby dobry model i taki, który mógłby być zweryfikowany w wielu próbkach. Nie oznacza to jednak, że możemy wnioskować o związku przyczynowym. Krzyżowa walidacja zapewnia powtarzalność prognoz i nic więcej. Przyczynowość jest kwestią projektowania i logiki.

EDYCJA: Oto przykład do zilustrowania. Mógłbym zbudować model z dobrą dokładnością predykcyjną, który przewiduje populację miasta na podstawie kwoty pieniędzy, które miasto wydaje na usuwanie śmieci. Mógłbym użyć weryfikacji krzyżowej do przetestowania dokładności tego modelu, a także innych metod w celu poprawy dokładności prognozowania i uzyskania bardziej stabilnych parametrów. O ile ten model świetnie nadaje się do przewidywania, logika przyczynowa jest błędna - kierunek przyczynowy jest odwrócony. Bez względu na to, co mogą się spierać ludzie z Działu Robót Publicznych, zwiększenie ich budżetu na usuwanie śmieci nie byłoby dobrą strategią na zwiększenie populacji miasta (interpretacja przyczynowa).

Kwestie dokładności i powtarzalności modelu są odrębne od naszej zdolności do wnioskowania przyczynowego na temat obserwowanych relacji. Walidacja krzyżowa pomaga nam z tym pierwszym, a nie z drugim. Teraz, JEŚLI oceniamy „poprawny” model pod względem określania przypadkowego związku (na przykład, próbując ustalić, jaki powinien być nasz budżet na usuwanie śmieci w oparciu o naszą oczekiwaną populację w przyszłym roku), weryfikacja krzyżowa może nam pomóc zwiększyć zaufanie do naszych szacunków tego efektu. Jednak walidacja krzyżowa nie pomaga nam wybrać „poprawnego” modelu w odniesieniu do związków przyczynowych. Ponownie musimy tutaj polegać na projekcie badania, naszej wiedzy specjalistycznej, teorii i logice.

Brett
źródło
1
Więc nie sądzisz, że oszacowania powtarzalności efektów mogą być przydatne? Chociaż nie jesteś sam w swojej koncepcji, czym jest dowód przyczynowości, myślę, że jest dość wąski. Nigdy nie będziemy w stanie bez końca udowodnić związku przyczynowego, nawet za pomocą eksperymentu, bez wszystkich dowodów we wszechświecie. Dlatego moim zdaniem celem jest dostarczenie dowodów, że każdy szacowany przez nas związek jest tak bliski prawdy, zważywszy na znane nam informacje. Biorąc pod uwagę, że nie sądzisz, że powtarzalność przewidywania z zestawu treningowego do trzymanej próbki może być użytecznym sprawdzeniem dokonanych wniosków?
Andy W
Doceniam również wasze komentarze i całkowicie się zgadzam, że wnioski są silnie uzależnione od logiki i projektu badań.
Andy W
1
Andy, edytowałem mój post, aby odpowiedzieć na twoje komentarze. Nie chcę też sugerować, że wnioskowania przyczynowego nie można dokonać poza kontekstem zaprojektowanego eksperymentu. Niemniej jednak jest to trudniejsze i mniej pewne w badaniach obserwacyjnych i nie powinniśmy szukać modeli budowania procedur, które pomogą nam rozwiązać ten problem. Powinniśmy raczej spróbować lepiej zrozumieć problemy, dla których staramy się zrozumieć związki przyczynowe.
Brett
Zgadzam się ze wszystkim, co mówisz, z wyjątkiem tego, że kwestie dokładności i powtarzalności są niezbędne do prawidłowego wnioskowania w przypadku wątpliwości. Mogę dać ekspertom wątpliwość, czy budują oni logiczne modele. Niepokoi mnie powtarzalność ustaleń w wielu kontekstach obserwacyjnych. Chociaż zgadzam się, powtarzalność niekoniecznie tłumaczy mylące wpływy, które najlepiej radzić sobie w warunkach eksperymentalnych.
Andy W
(+1) Przepraszam. Wygląda na to, że zapomniałem również głosować na twoją bardzo miłą odpowiedź. Głosowałem już na twoje pomocne komentarze.
chl
13

Wydaje mi się, że twoje pytanie dotyczy bardziej odmiennego sposobu walidacji modelu predykcyjnego: walidacja krzyżowa ma nieco więcej wspólnego z wewnętrzną trafnością lub przynajmniej z początkowym etapem modelowania, podczas gdy rysowanie związków przyczynowych na większej populacji jest bardziej powiązane do zewnętrznej ważności. Przez to (i jako aktualizację po ładnej uwadze @ Bretta) mam na myśli, że zwykle budujemy model na działającej próbce, zakładając hipotetyczny model koncepcyjny (tj. Określamy związki między predyktorami a interesującymi wynikami), i staramy się uzyskać wiarygodne szacunki przy minimalnym poziomie błędu klasyfikacji lub minimalnym błędzie prognozy. Mamy nadzieję, że im lepsza wydajność modelu, tym lepiej pozwoli nam przewidzieć wynik (wyniki) na podstawie niewidzialnych danych; mimo to CV nie mówi nic o „trafności” ani adekwatności hipotetycznych związków przyczynowych. Z pewnością moglibyśmy osiągnąć przyzwoite wyniki za pomocą modelu, w którym niektóre efekty moderacji i / lub mediacji są zaniedbywane lub po prostu nie są znane z góry.

Chodzi mi o to, że niezależnie od metody, której używasz do walidacji modelu (i metoda wstrzymania na pewno nie jest najlepsza, ale nadal jest szeroko stosowana w badaniach epidemiologicznych w celu złagodzenia problemów wynikających z budowania modelu krokowego), pracujesz z tą samą próbą (który, jak zakładamy, jest reprezentatywny dla większej populacji). Wręcz przeciwnie, uogólnienie wyników i powiązań przyczynowych wywnioskowanych w ten sposób na nowych próbkach lub prawdopodobnej pokrewnej populacji zwykle odbywa się poprzez badania replikacji . Zapewnia to, że możemy bezpiecznie przetestować zdolność prognostyczną naszego modelu w „superpopulacji”, która charakteryzuje się większym zakresem poszczególnych odmian i może wykazywać inne potencjalne czynniki zainteresowania.

Twój model może zapewniać prawidłowe prognozy dla twojej roboczej próbki i obejmuje wszystkie potencjalne czynniki zakłócające, o których mogłeś pomyśleć; możliwe jest jednak, że nie będzie on działał tak dobrze z nowymi danymi, tylko dlatego, że na pośredniej ścieżce przyczynowej pojawiają się inne czynniki, które nie zostały zidentyfikowane podczas budowania modelu początkowego. Może się to zdarzyć, jeśli niektóre z predyktorów i wyprowadzone z nich związki przyczynowe zależą na przykład od konkretnego ośrodka badawczego, w którym rekrutowano pacjentów.

W epidemiologii genetycznej wiele badań asocjacyjnych obejmujących cały genom nie powiela się tylko dlatego, że próbujemy modelować złożone choroby z nadmiernie uproszczonym poglądem na związki przyczynowe między markerami DNA a obserwowanym fenotypem, podczas gdy jest bardzo prawdopodobne, że gen-gen (epistaza), choroby genowe (pleiotropia), środowisko genowe i podstruktury populacji wchodzą w grę, ale patrz na przykład Walidacja, zwiększanie i udoskonalanie sygnałów asocjacyjnych całego genomu(Ioannidis i in., Nature Reviews Genetics, 2009 10). Możemy więc zbudować model wydajności, aby uwzględnić zaobserwowane różnice krzyżowe między zestawem markerów genetycznych (o bardzo niskim i rzadkim rozmiarze efektu) a wielowymiarowym wzorem obserwowanych fenotypów (np. Objętość substancji białej / szarej lub zlokalizowane aktywności w mózgu obserwowane za pomocą fMRI, odpowiedzi na ocenę neuropsychologiczną lub inwentaryzację osobowości), nadal nie będą działać zgodnie z oczekiwaniami na niezależnej próbce.

Jeśli chodzi o ogólne odniesienie do tego tematu, można polecić rozdział 17 i część III modeli prognozowania klinicznego , autorstwa EW Steyerberga (Springer, 2009). Podoba mi się również następujący artykuł od Ioannidis:

Ioannidis, JPA, Dlaczego większość opublikowanych wyników badań jest fałszywa? PLoS Med. 2005 2 (8): e124

chl
źródło
1
@chl: Czy możesz wyjaśnić swoje stwierdzenie w pierwszym akapicie dotyczące wewnętrznej i zewnętrznej ważności? W znanej mi tradycji: wewnętrzna poprawność odnosi się do zdolności do stwierdzania związków przyczynowo-skutkowych między zmiennymi w obrębie konkretnej próbki; zewnętrzna ważność dotyczy zdolności do generalizowania z próby na inne osoby, miejsca i czasy. Tradycyjnie walidacja krzyżowa dotyczy tej ostatniej, a zatem według powyższej definicji zewnętrznej ważności, podczas gdy twierdzisz, że dotyczy to wewnętrznej ważności. Czy źle zrozumiałem twoje oświadczenie?
Brett,
1
@Brett Myślałem o CV jako o technice statystycznej, aby uniknąć nadmiernego dopasowania lub zapewnić miarę dokładności prognoz na próbce roboczej (stąd niekoniecznie jako dedykowane narzędzie do wykazania wewnętrznej ważności). Nie byłem bardzo jasny, dziękuję ani nie wskazuję tego. Zgadzam się, że jest to następnie wykorzystywane do uogólnienia na podstawie próbki, ale wydaje mi się, że nie ma to nic wspólnego z wnioskami przyczynowymi (CV nie dowodzi niczego na temat związków przyczynowych, tak jak na podstawie próbki roboczej). Podzielam twoje zdanie na temat zewnętrznej ważności, ale aby to udowodnić, potrzebujemy innych próbek, prawda?
chl
1
Możesz wyjaśnić ten pierwszy akapit. Myślę, że próbujesz powiedzieć, że CV nie ma wewnętrznej ważności. To kwestia innych procesów. Ale jeśli mamy dobrą wewnętrzną ważność z innych powodów, cokolwiek to może być, CV pomoże oszacować ten efekt dokładniej w odniesieniu do osób, miejsc i czasów - tj. Poprawi zewnętrzną ważność. Nadal nie mogę wymyślić żadnego sposobu, w jaki CV pomogłoby nam wysunąć roszczenia przyczynowe dotyczące związków między zmiennymi - samo wewnętrzne pytanie o ważność - jedynie w celu uogólnienia ustalonego związku przyczynowego.
Brett,
1
@Brett Myślę, że twoje komentarze do tego pytania są bardzo trafne i bardzo ładnie podsumowują niektóre z zagadnień. Wątpię, by to pomogło w jakimkolwiek zamieszaniu między wewnętrzną a zewnętrzną ważnością w tym momencie, ale przykład epidemiologii genetycznej chl jest w rzeczywistości problemem wewnętrznej ważności, a nie zewnętrznej ważności (z wyjątkiem niejednorodności między zestawem danych (lub podstruktury populacji), ale to, że IMO jest mniej obaw niż ważność wewnętrzna w tych przykładach).
Andy W
2
Definicja Bretta między wewnętrzną i zewnętrzną ważnością jest dokładna, ale dla naszych celów pomoże to zdefiniować na różne sposoby. Ważność zewnętrzna dotyczy tylko próby i tego, w jaki sposób próba ta odnosi się do innych populacji. Ważność wewnętrzna dotyczy różnych aspektów szacowanych efektów i konstrukcji użytych do oszacowania tych efektów.
Andy W
12

To dobre pytanie, ale odpowiedź brzmi zdecydowanie nie: krzyżowa walidacja nie poprawi wnioskowania przyczynowego. Jeśli masz mapowanie między objawami i chorobami, walidacja krzyżowa pomoże upewnić się, że Twój model lepiej dopasowuje się do ich wspólnej dystrybucji, niż gdybyś po prostu dopasował swój model do całego surowego zestawu danych, ale nigdy nie powie ci nic o kierunkowość związku przyczynowego.

Walidacja krzyżowa jest bardzo ważna i warta przestudiowania, ale nie ogranicza się do nadmiernego dopasowania się do szumu w zbiorze danych. Jeśli chcesz to lepiej zrozumieć, sugeruję rozdział 7 ESL: http://www-stat.stanford.edu/~hastie/Papers/ESLII.pdf

John Myles White
źródło
Dziękuję za referencje. Więc powiedz, że nie martwisz się wyborem modelu, czy może być przydatna krzyżowa walidacja oszacowań efektów zestawu danych treningowych w zestawie danych?
Andy W
Może tak być, ale powiedziałbym, że w tym momencie zasadniczo ładujesz (lub jakąś jego odmianę).
John Myles White,
Zgadzam się i myślę, że regularnie wykonuje się inne rzeczy, które odzwierciedlają ten sam rodzaj logiki (takie jak testy specyficzności podzbioru lub nie równoważne zmienne zależne). Po prostu zadałem to pytanie, ponieważ wyobrażałem sobie, że istnieją bardziej formalne metody leczenia.
Andy W,
Komentarze do downvote są zawsze mile widziane!
chl
Ta książka to prezent, który wciąż daje!
hayd
6

Aby odpowiedzieć na kontynuację @Andy opublikowaną jako odpowiedź tutaj ...

Chociaż nie mogę powiedzieć, która ocena jest prawidłowa, a która fałszywa, to czy niespójność w wyrokach skazujących na atak i szacunkach dotyczących broni między dwoma modelami nie podważa, że ​​któryś z nich ma rzeczywisty wpływ przyczynowy na długość wyroku?

Myślę, że masz na myśli rozbieżność w oszacowaniach parametrów, która daje nam powód, by sądzić, że żaden z oszacowań parametrów nie reprezentuje prawdziwego skutku przyczynowego. Zgadzam się z tym, chociaż mieliśmy już wiele powodów do sceptycyzmu, że taki model dałby prawdziwy efekt przyczynowy.

Oto moje zdanie: Przeszacowanie danych jest źródłem stronniczych szacunków parametrów i bez powodu sądzić, że to uprzedzenie równoważy inne źródła uprzedzeń w szacowaniu konkretnego skutku przyczynowego, wtedy średnio lepiej jest oszacować skutki przyczynowe bez nadmiernego dopasowania danych. Walidacja krzyżowa zapobiega nadmiernemu dopasowaniu, dlatego powinna średnio poprawiać oszacowanie skutków przyczynowych.

Ale jeśli ktoś próbuje mnie przekonać, aby uwierzyć w swoje oszacowanie wpływu przyczynowego na podstawie danych obserwacyjnych, udowodnienie, że nie przesadziły z danymi, ma niski priorytet, chyba że mam silny powód, by podejrzewać, że ich strategia modelowania może mieć nadmierne dopasowanie.

W aplikacjach z zakresu nauk społecznych, z którymi pracuję, znacznie bardziej interesują mnie kwestie merytoryczne, pomiary i kontrole wrażliwości. Przez kontrole wrażliwości mam na myśli szacowanie zmian w modelu, w których warunki są dodawane lub usuwane, oraz szacowanie modeli z interakcjami umożliwiającymi zmianę efektu zainteresowania w różnych podgrupach. W jakim stopniu zmiany w modelu statystycznym wpływają na oszacowanie parametru, który chcemy interpretować przyczynowo? Czy rozbieżności w oszacowaniu tego parametru w specyfikacjach modelu lub podgrupach są zrozumiałe w kontekście historii przyczynowej, którą próbujesz opowiedzieć, czy też wskazują na efekt wynikający np. Z wyboru.

W rzeczywistości przed uruchomieniem tych alternatywnych specyfikacji. Napisz, jak Twoim zdaniem zmieni się oszacowanie parametru. To wspaniałe, jeśli oszacowanie interesujących Cię parametrów nie różni się znacznie między podgrupami lub specyfikacjami - w kontekście mojej pracy jest to ważniejsze niż weryfikacja krzyżowa. Ale inne istotne kwestie mające wpływ na moją interpretację są nadal ważniejsze.

Michael Bishop
źródło
Dziękuję bardzo za wgranie! Twoja perspektywa z pewnością stanowi bardzo bezpośrednią motywację do walidacji krzyżowej w modelach przyczynowych, których sam nigdy nie sformułowałem w sposób przekonujący. IMO, że nawet sprzedajesz się trochę krótko, używając etykiety nadmiernego dopasowania. Na przykład w początkowym zestawie eksploracyjnym mogę spojrzeć na dopasowanie modelu między równaniami za pomocą zmiennej niezależnej w początkowej skali w stosunku do skali logarytmicznej. Wybieram model ze skalą logarytmiczną, który lepiej pasuje, a następnie używam go w modelu Hold Out. Zwykle nie byłoby to uważane za nadmierne dopasowanie (wybór między jednym a drugim), cd ...
Andy W
ale nadal mieści się w paradygmacie, który zasugerowałeś w moim akapicie tutaj.
Andy W
5

Dziękuję wszystkim za odpowiedzi, ale pytanie urosło do czegoś, czego nie zamierzałem, ponieważ jest to głównie esej na temat ogólnego pojęcia wnioskowania przyczynowego bez prawidłowej odpowiedzi.

Początkowo chciałem, aby pytanie zbadało odbiorców pod kątem przykładów zastosowania weryfikacji krzyżowej do wnioskowania przyczynowego. Zakładałem, że takie metody istnieją, ponieważ koncepcja użycia próbki testowej i trzymania próbki w celu oceny powtarzalności oszacowań efektu wydawała mi się logiczna. Jak zauważył John, to, co sugerowałem, nie jest podobne do ładowania początkowego, i powiedziałbym, że przypomina inne metody, których używamy do sprawdzania poprawności wyników, takie jak testy specyficzności podzbioru lub nie równoważne zmienne zależne (ładowanie wstępne rozluźnia założenia parametryczne modeli i podzbioru testy w bardziej ogólny sposób służą do sprawdzenia, czy wyniki są logiczne w różnych sytuacjach). Żadna z tych metod nie spełnia żadnej z pozostałych odpowiedzi standardów dowodu wnioskowania przyczynowego, ale uważam, że nadal są one przydatne do wnioskowania przyczynowego.

komentarz chl jest słuszny, ponieważ moje twierdzenie o stosowaniu weryfikacji krzyżowej jest sprawdzeniem wewnętrznej ważności w celu ułatwienia wnioskowania przyczynowego. Ale proszę, żebyśmy na razie zlikwidowali rozróżnienie między wewnętrzną i zewnętrzną ważnością, ponieważ nie przyczynia się to do dalszej debaty. Chl przykład badań całego genomu w epidemiologii Rozważę doskonały przykład niskiej wewnętrznej ważności, co powoduje, że silne wnioskowanie jest z natury wątpliwe. Myślę, że badania asocjacji genomu są w rzeczywistości przykładem tego, o co prosiłem. Czy uważasz, że wnioskowanie między genami a chorobą jest poprawione dzięki zastosowaniu krzyżowej walidacji (w przeciwieństwie do rzucania wszystkich markerów w jeden model i odpowiedniego dostosowywania wartości p?)

Poniżej wkleiłem kopię tabeli w artykule Berka, który zacytowałem w swoim pytaniu. Chociaż wykazano, że tabele te przedstawiają fałszywą logikę stosowania stopniowych kryteriów wyboru i wnioskowania przyczynowego w tym samym modelu, to udawajmy, że nie zastosowano kryteriów wyboru modelu, a parametry zarówno w próbce szkoleniowej, jak i próbnej zostały określone A priori. Nie wydaje mi się to nierealnym rezultatem. Chociaż nie mogę powiedzieć, która ocena jest prawidłowa, a która fałszywa, to czy niespójność w wyrokach skazujących na atak i szacunkach dotyczących broni między dwoma modelami nie podważa, że ​​któryś z nich ma rzeczywisty wpływ przyczynowy na długość wyroku? Czy znajomość tej odmiany nie jest przydatna? Jeśli nic nie tracimy, próbując wstrzymać próbę w celu przetestowania naszego modelu, dlaczego nie możemy zastosować walidacji krzyżowej w celu poprawy wnioskowania przyczynowego (lub brakuje mi tego, co tracimy, stosując próbkę wstrzymania?) alternatywny tekst

Andy W.
źródło
1
Doceniona zostanie notatka o tym, dlaczego została ona odrzucona.
Andy W
2
Poproszę @Andy i zasugeruję pozostawienie komentarza podczas głosowania niższego szczebla: zawsze pomocne jest nauczenie się, co jest nie tak, jeśli w ogóle. Szczególnie w tym przypadku: Andy W wrócił z rozszerzonymi komentarzami CW, które moim zdaniem stanowią dodatkowe wsparcie dla pierwotnego pytania. Nie ma potrzeby głosowania tutaj!
chl
1
Czy standardowy przedział błędu / ufności już nie wskazuje na tę zmienność? twoje oszacowania zestawu testowego są zawarte w standardowych przedziałach ufności z zestawu treningowego. Myślałem, że małe standardowe błędy i wąskie CI są ważne dla związku przyczynowego.
probabilityislogic
Tak @probabilityislogic masz rację. Uważam, że kiedy wspomniałem o tym, nie było to przeznaczone do sytuacji, w której zastosujesz CV do już dostępnego zestawu danych, ale do zbioru danych zebranego w innym czasie. Pomyślałem, że CV może się tu przydać do wzmocnienia stwierdzeń przyczynowych, ale nadal nie jest dla mnie jasne, czy tak jest. Widziałem tylko, że jest to prawdopodobnie użyteczne pod względem wyboru modelu, nie walidując go w żaden sposób (np. Mój model na tych nowych danych zapewnia bardzo ścisłe dopasowanie).
Andy W
1

Sądzę, że jest to intuicyjny sposób myślenia o związku między CV a wnioskami przyczynowymi: (proszę poprawić, jeśli się mylę)

Zawsze myślę o CV jako sposobie oceny wydajności modelu w prognozach. Jednak w wnioskach przyczynowych bardziej interesuje nas coś równoważnego Brzytwą Ockhama (parsimony), dlatego CV nie pomoże.

Dzięki.

suncoolsu
źródło
Powodem, dla którego zadałem to pytanie, jest to, że nie musimy myśleć o krzyżowej walidacji jako o jedynym sposobie oceny zdolności prognostycznej modeli. Nierzadko obawia się, że wyniki modeli (i stąd wyciągnięte wnioski) są artefaktami z wielu potencjalnych przyczyn. Dlatego chcemy zbadać wiarygodność wyników i doszedłem do wniosku, że krzyżowa walidacja może być przydatnym kontekstem do zbadania wiarygodności wyników.
Andy W
przepraszam za błędną interpretację.
suncoolsu
Nie ma potrzeby przeprosin. To ja sugeruję coś pozornie marginesowego, a walidacja krzyżowa jest najwyraźniej zawsze używana w sugerowanym kontekście.
Andy W
@suncoolsu, Kiedy myślę o wnioskowaniu przyczynowym, nigdy nie martwię się o brzytwę Occam's Orparsimony, czy możesz wyjaśnić mi ten związek?
Michael Bishop