Jackknife vs. LOOCV

15

Czy naprawdę jest jakaś różnica między scyzorykiem a pominięciem jednej weryfikacji krzyżowej? Procedura wydaje się identyczna. Czy coś brakuje?

Wintermute
źródło

Odpowiedzi:

11

W walidacji krzyżowej obliczasz statystyki na pominiętych próbach. Najczęściej przewiduje się pominięte próbki na podstawie modelu zbudowanego na przechowywanych próbkach. W jackknifing obliczasz statystyki tylko z zachowanych próbek.

Tommy L.
źródło
4
Nie rozumiem, w jaki sposób ta odpowiedź przemawia do LOOCV w pierwotnym pytaniu. W jakim sensie można „obliczyć statystykę” na podstawie jednej pominiętej obserwacji?
Alexis
12

Jackknife często odnosi się do 2 powiązanych, ale różnych procesów, z których oba opierają się na podejściu typu „zostaw jedno”, co prowadzi do tego bardzo zamieszania.

W jednym kontekście można użyć scyzoryka do oszacowania parametrów populacji i błędów ich standardów. Na przykład, aby zastosować metodę scyzoryka do oszacowania nachylenia i przechwycenia prostego modelu regresji, należy:

  1. Oszacuj nachylenie i przechwyć używając wszystkich dostępnych danych.
  2. Pomiń 1 obserwację i oszacuj nachylenie i przecięcie (znane również jako „częściowe oszacowanie” współczynników).
  3. Obliczyć różnicę między oszacowaniem „częściowym” a oszacowaniem „wszystkich danych” nachylenia i przecięcia (znanego również jako „pseudo-wartość” współczynników).
  4. Powtórz kroki 2 i 3 dla całego zestawu danych.
  5. Obliczyć średnią z pseudo wartości dla każdego współczynnika - są to szacunkowe wartości nachylenia i przecięcia

Pseudo wartości i szacunkowe wartości współczynników można również wykorzystać do określenia błędów standardowych, a tym samym przedziałów ufności. Zazwyczaj takie podejście daje szersze przedziały ufności dla współczynników, ponieważ jest to lepsza, bardziej konserwatywna miara niepewności. Takie podejście można również wykorzystać do uzyskania szacunkowego szacunku obciążenia również dla współczynników.

W innym kontekście do oceny wydajności modelu używany jest scyzoryk. W tym przypadku jackknife = test krzyżowy z pominięciem jednego. Oba odnoszą się do pozostawienia jednej obserwacji z zestawu danych kalibracyjnych, ponownej kalibracji modelu i przewidywania obserwacji, która została pominięta. Zasadniczo każda obserwacja jest prognozowana przy użyciu „częściowych oszacowań” predyktorów.

Oto miły mały artykuł o jackknife, który znalazłem w Internecie: https://www.utdallas.edu/~herve/abdi-Jackknife2010-pretty.pdf

jcmb
źródło
1
O ile się nie mylę (i mogę się nie mylić), twój pierwszy kontekst opisuje weryfikację krzyżową z pominięciem jednego .
Alexis
2
Właśnie dzieliłem idee szacowania parametrów za pomocą LOO w porównaniu do szacowania wartości, która została pominięta (jak w LOOCV). Widzę je jako dwa powiązane, ale nieco odmienne procesy, ale może oba mogą być określane jako LOOCV? Mógłbym się również mylić.
jcmb