Dlaczego dystrybucje są ważne?

10

To może równie dobrze spaść, jak najgłupsze pytania, jakie kiedykolwiek zadano na tym forum, ale po otrzymaniu rozsądnych i znaczących odpowiedzi na poprzednie pytanie, pomyślałem, że ponownie rozciągnę moje szczęście.

Przez pewien czas byłem bardzo zdezorientowany co do znaczenia rozkładów statystycznych, zwłaszcza gdy odnoszą się one do zwrotów aktywów, a dokładniej do alokacji aktywów.

Moje szczegółowe pytanie brzmi: Załóżmy, że mam 20 lat danych zwrotów miesięcznych S&P 500, dlaczego powinienem zakładać pewien rodzaj dystrybucji (tj. Lot Normalny / Johnson / Levy itp.) Dla mojej decyzji o alokacji aktywów, kiedy mogę po prostu po prostu podejmować decyzje o alokacji aktywów na podstawie danych historycznych, które mam przy sobie?

Bloodline
źródło
3
pamiętaj, że jeśli uznasz, że odpowiedzi na poprzednie pytanie były pomocne, możesz oznaczyć je jako „zaakceptowane”, klikając pole wyboru obok odpowiedzi. dzięki temu inni wiedzą, że Twoje pytanie zostało rozwiązane.
Jeff
2
W rzeczywistości jest ostatni post JDCook na ten temat. Aby przedstawić znaczenie tego pytania dla twojego pytania, zacytuję pierwszy akapit: „Kiedy statystycy analizują dane, nie tylko patrzą na dane, które im dostarczasz. Rozważają także dane hipotetyczne, które mógłbyś przynieść. Innymi słowy , biorą pod uwagę to, co mogło się stać, a także to, co się faktycznie wydarzyło. ”
user603
Uważam, że Taleb miał coś do powiedzenia na temat problemów z podejmowaniem decyzji wyłącznie na podstawie danych historycznych :-). (Dane historyczne zwykle nie ujawniają bezpośrednio rzadkich, ale prawdopodobnie śmiertelnych wydarzeń związanych z „czarnym łabędziem”, dopóki nie jest za późno.)
whuber
2
... jak większość indyków zda sobie sprawę za kilka tygodni.
Ryogi
Aby rozwinąć punkt @ user603 - chcesz wyciągać wnioski poza próbą. W szczególności punkt alokacji aktywów dotyczy przyszłego zachowania, a nie przeszłego. Obejmuje to na przykład, jak zachowują się rzeczy na ogonie, gdzie masz niewiele obserwacji. Możesz wnieść dodatkową wiedzę / zrozumienie / uprzedzenia na temat procesu poprzez założenia dystrybucyjne. Jeśli te założenia są gdzieś blisko, możesz dodać wiele informacji.
Glen_b

Odpowiedzi:

5

Zastosowanie założonego rozkładu (tj. Analizy parametrycznej) obniży koszt obliczeniowy twojej metody. Zakładam, że chciałbyś wykonać regresję lub klasyfikację. Oznacza to, że w pewnym momencie zamierzasz oszacować rozkład niektórych danych. Metody nieparametryczne są przydatne, gdy dane nie są zgodne z dobrze zbadanym rozkładem, ale zwykle zajmują więcej czasu na obliczenie lub więcej pamięci na przechowanie.

Również jeśli dane są generowane przez proces zgodny z rozkładem, taki jak średnia z niektórych jednakowo losowych procesów, wówczas zastosowanie tego rozkładu ma większy sens. W przypadku uśredniania zbioru zmiennej jednolitej poprawnym rozkładem jest prawdopodobnie rozkład Gaussa.

James
źródło
0

Uzupełnienie odpowiedzi Jamesa : modele parametryczne również (zwykle) wymagają mniejszej liczby próbek, aby mieć dobre dopasowanie: może to zwiększyć ich siłę generalizacyjną: to znaczy, że mogą lepiej przewidywać nowe dane, a nawet się mylić. Oczywiście zależy to od sytuacji, modeli i wielkości próbek.

szaleństwo
źródło