Kernel Bandwidth: Scott's vs. Silverman

14

Czy ktoś mógłby wyjaśnić prostym językiem angielskim, jaka jest różnica między podstawowymi zasadami Scotta i Silvermana dotyczącymi wyboru przepustowości? W szczególności, kiedy jedno jest lepsze od drugiego? Czy jest to związane z dystrybucją podstawową? Liczba przykładów?

PS Mam na myśli kod w SciPy .

xrfang
źródło
1
Nie chcę też znać Pythona. Chcę tylko pomóc w zrozumieniu, kiedy użyć której reguły i dlaczego.
xrfang

Odpowiedzi:

11

Komentarze w kodzie wydają się ostatecznie definiować te dwa elementy w sposób identyczny (pomijając stosunkowo niewielką różnicę w stałej).

Oba mają postać , oba mają coś, co wygląda jak ten sam (oszacowanie skali), a jest bardzo bliskie 1 (bliskie w stosunku do typowej niepewności w oszacowaniu optymalnej szerokości pasma ).cAn1/5Ac

[Szacunkowy binwdith, który zwykle wydaje się być związany ze Scottem, pochodzi z jego artykułu z 1979 r. [1] ( ) - np. Patrz Wikipedia - przewiń trochę w dół - lub R. ]3.49sn1/3nclass.scott

1.059 w tym, co kod nazywa „oszacowaniem Scotta”, znajduje się w (wcześniejszej) książce Silvermana (patrz str. 45 odnośnika do Silvermana pod twoim linkiem - wyprowadzenie go przez Scotta znajduje się na str. 130-131 książki, do której się odnoszą). Pochodzi z szacunków teorii normalnej.

Optymalna szerokość pasma (w kategoriach zintegrowanego błędu średniego kwadratu) jest funkcją zintegrowanej kwadratowej drugiej pochodnej, a wynika z tego obliczenia dla normy, ale w wielu przypadkach jest to znacznie więcej niż jest optymalne dla innych rozkładów .1.059σ

Termin jest oszacowaniem (rodzaj solidnego oszacowania, w sposób, który zmniejsza tendencję do zbyt dużej wartości, jeśli występują wartości odstające / skośne / ciężkie ogony). Patrz równanie 3.30 na str. 47, uzasadnione na str. 46–7.Aσ

Z podobnych powodów, które wcześniej zasugerowałem, Silverman dalej sugeruje zmniejszenie 1.059 (w rzeczywistości używa 1,06 w całym, a nie 1.059 - jak Scott w swojej książce). Wybiera obniżoną wartość, która traci nie więcej niż 10% wydajności na IMSE w normie, czyli stąd pochodzi 0,9.

Zatem obie te szerokości pasma są oparte na szerokości optymalnej IMSE w normie, jedna dokładnie w optymalnej, druga w drugiej (około 15% mniejsza, aby uzyskać 90% wydajności optymalnej w normie). [Nazwałbym oba oszacowania „Silvermanem”. Nie mam pojęcia, dlaczego nazwali 1.059 dla Scotta.]

Moim zdaniem oba są zdecydowanie za duże. Nie używam histogramów, aby uzyskać optymalne dla IMSE oszacowania gęstości. Gdyby to (uzyskanie oszacowań gęstości, które są optymalne w sensie IMSE), było tym, co chciałem zrobić, nie chciałbym używać do tego celu histogramów.

Histogramy powinny być błędne po głośniejszej stronie (pozwól, aby oko wykonało niezbędne wygładzenie). Prawie zawsze podwajam (lub więcej) domyślną liczbę pojemników, jakie dają tego rodzaju reguły. Więc nie użyłbym 1.06 lub 0.9, zwykle używałem czegoś około 0,5, może mniej przy naprawdę dużych próbkach.

Naprawdę niewiele jest między nimi do wyboru, ponieważ oba dają o wiele za mało pojemników, aby można je było wykorzystać do znalezienia tego, co dzieje się w danych (o których, przynajmniej przy małych rozmiarach próbek, patrz tutaj .

[1]: Scott, DW (1979), „Histogramy optymalne i oparte na danych”, Biometrika , 66 , 605-610.

Glen_b - Przywróć Monikę
źródło
Zgodnie z dokumentem SciPy tutaj reguła Scotta to: n ** (- 1./(d+4)). Patrząc na kod, odkryłem, że źle zrozumiałem regułę tak samo jak „scotts_factor”. Masz rację, że przepustowość jest zdecydowanie za duża. Otworzę nowe pytanie dotyczące numerycznego wyboru przepustowości. Dzięki.
xrfang
Gdy wykonujesz dane jednowymiarowe ( ), jest to część w powyższych formułach. Ale to nie bierze pod uwagę zmienności danych (mierzonej przez powyżej), ani terminu, dla którego dystrybucji próbujesz zoptymalizować w pobliżu (to, co nazwałem powyżej, na przykład współczynnik 1.059). Po prostu szerokość pasma powinna się zmieniać wraz z rozmiarem próbki, a nie stałe, przez które należy ją pomnożyć. d=1n1/5Ac
Glen_b
@ Glen_b-ReinstateMonica Czy mógłbyś rzucić okiem na pytanie, które tutaj zamieściłem ? Pokazuję problemy, jakie może wiązać się z zasadą Silvermana, gdy używana jest duża próbka. Czy mógłbyś szczegółowo odpowiedzieć na to, co się dzieje?
user269666