Czy ktoś mógłby wyjaśnić prostym językiem angielskim, jaka jest różnica między podstawowymi zasadami Scotta i Silvermana dotyczącymi wyboru przepustowości? W szczególności, kiedy jedno jest lepsze od drugiego? Czy jest to związane z dystrybucją podstawową? Liczba przykładów?
PS Mam na myśli kod w SciPy .
kernel-smoothing
xrfang
źródło
źródło
Odpowiedzi:
Komentarze w kodzie wydają się ostatecznie definiować te dwa elementy w sposób identyczny (pomijając stosunkowo niewielką różnicę w stałej).
Oba mają postać , oba mają coś, co wygląda jak ten sam (oszacowanie skali), a jest bardzo bliskie 1 (bliskie w stosunku do typowej niepewności w oszacowaniu optymalnej szerokości pasma ).c A n- 1 / 5 ZA do
[Szacunkowy binwdith, który zwykle wydaje się być związany ze Scottem, pochodzi z jego artykułu z 1979 r. [1] ( ) - np. Patrz Wikipedia - przewiń trochę w dół - lub R. ]3,49 s n- 1 / 3
nclass.scott
1.059 w tym, co kod nazywa „oszacowaniem Scotta”, znajduje się w (wcześniejszej) książce Silvermana (patrz str. 45 odnośnika do Silvermana pod twoim linkiem - wyprowadzenie go przez Scotta znajduje się na str. 130-131 książki, do której się odnoszą). Pochodzi z szacunków teorii normalnej.
Optymalna szerokość pasma (w kategoriach zintegrowanego błędu średniego kwadratu) jest funkcją zintegrowanej kwadratowej drugiej pochodnej, a wynika z tego obliczenia dla normy, ale w wielu przypadkach jest to znacznie więcej niż jest optymalne dla innych rozkładów .1,059 σ
Termin jest oszacowaniem (rodzaj solidnego oszacowania, w sposób, który zmniejsza tendencję do zbyt dużej wartości, jeśli występują wartości odstające / skośne / ciężkie ogony). Patrz równanie 3.30 na str. 47, uzasadnione na str. 46–7.ZA σ
Z podobnych powodów, które wcześniej zasugerowałem, Silverman dalej sugeruje zmniejszenie 1.059 (w rzeczywistości używa 1,06 w całym, a nie 1.059 - jak Scott w swojej książce). Wybiera obniżoną wartość, która traci nie więcej niż 10% wydajności na IMSE w normie, czyli stąd pochodzi 0,9.
Zatem obie te szerokości pasma są oparte na szerokości optymalnej IMSE w normie, jedna dokładnie w optymalnej, druga w drugiej (około 15% mniejsza, aby uzyskać 90% wydajności optymalnej w normie). [Nazwałbym oba oszacowania „Silvermanem”. Nie mam pojęcia, dlaczego nazwali 1.059 dla Scotta.]
Moim zdaniem oba są zdecydowanie za duże. Nie używam histogramów, aby uzyskać optymalne dla IMSE oszacowania gęstości. Gdyby to (uzyskanie oszacowań gęstości, które są optymalne w sensie IMSE), było tym, co chciałem zrobić, nie chciałbym używać do tego celu histogramów.
Histogramy powinny być błędne po głośniejszej stronie (pozwól, aby oko wykonało niezbędne wygładzenie). Prawie zawsze podwajam (lub więcej) domyślną liczbę pojemników, jakie dają tego rodzaju reguły. Więc nie użyłbym 1.06 lub 0.9, zwykle używałem czegoś około 0,5, może mniej przy naprawdę dużych próbkach.
Naprawdę niewiele jest między nimi do wyboru, ponieważ oba dają o wiele za mało pojemników, aby można je było wykorzystać do znalezienia tego, co dzieje się w danych (o których, przynajmniej przy małych rozmiarach próbek, patrz tutaj .
[1]: Scott, DW (1979), „Histogramy optymalne i oparte na danych”, Biometrika , 66 , 605-610.
źródło