Odpowiedzi (definicje) zdefiniowane na Wikipedii są prawdopodobnie nieco tajemnicze dla osób niezaznajomionych z wyższą matematyką / statystyką.
W kategoriach matematycznych model statystyczny jest zwykle uważany za parę ( ), gdzie jest zbiorem możliwych obserwacji, tj. Przestrzenią próbki, a jest zbiorem rozkładów prawdopodobieństwa o . S P S
W prawdopodobieństwie i statystyce rozkład prawdopodobieństwa przypisuje prawdopodobieństwo każdemu mierzalnemu podzbiorowi możliwych wyników losowego eksperymentu, ankiety lub procedury wnioskowania statystycznego. Znaleziono przykłady, których przestrzeń próbki jest nienumeryczna, gdzie rozkład byłby rozkładem kategorycznym.
Jestem licealistką bardzo zainteresowaną tą dziedziną jako hobby i obecnie walczę z różnicami między tym, co jest statistical model
aprobability distribution
Moje obecne i bardzo podstawowe zrozumienie jest następujące:
modele statystyczne są matematycznymi próbami aproksymacji zmierzonych rozkładów
rozkłady prawdopodobieństwa są mierzonymi opisami z eksperymentów, które przypisują prawdopodobieństwa każdemu możliwemu wynikowi losowego zdarzenia
zamieszanie jest dodatkowo potęgowane przez tendencję w literaturze, aby słowa „rozkład” i „model” były używane zamiennie - lub przynajmniej w bardzo podobnych sytuacjach (np. rozkład dwumianowy vs. model dwumianowy)
Czy ktoś może zweryfikować / skorygować moje definicje i być może zaoferować bardziej sformalizowane (choć wciąż pod względem prostego angielskiego) podejście do tych pojęć?
źródło
Odpowiedzi:
Rozkład prawdopodobieństwa jest funkcją matematyczną opisującą zmienną losową. Nieco dokładniej jest to funkcja, która przypisuje prawdopodobieństwa liczbom, a jej wynik musi być zgodny z aksjomatami prawdopodobieństwa .
Model statystyczny to abstrakcyjny, wyidealizowany opis niektórych zjawisk w kategoriach matematycznych z wykorzystaniem rozkładów prawdopodobieństwa. Cytując Wassermana (2013):
W wielu przypadkach używamy dystrybucji jako modeli (możesz sprawdzić ten przykład ). Możesz użyć rozkładu dwumianowego jako modelu liczenia głów w serii rzutów monetą. W takim przypadku zakładamy, że ten rozkład opisuje w uproszczony sposób rzeczywiste wyniki. Nie oznacza to, że jest to jedyny sposób na opisanie takiego zjawiska, ani że rozkład dwumianowy jest czymś, co można wykorzystać tylko w tym celu. Model może używać jednego lub więcej rozkładów, podczas gdy modele bayesowskie określają również wcześniejsze rozkłady.
Bardziej formalnie omawia to McCullaugh (2002):
Dlatego modele statystyczne wykorzystują rozkłady prawdopodobieństwa do opisywania danych w ich kategoriach. Modele parametryczne są również opisane w kategoriach skończonego zestawu parametrów.
Nie oznacza to, że wszystkie metody statystyczne wymagają rozkładów prawdopodobieństwa. Na przykład regresja liniowa jest często opisywana w kategoriach założenia normalności , ale w rzeczywistości jest dość odporna na odstępstwa od normalności i potrzebujemy założenia o normalności błędów dla przedziałów ufności i testowania hipotez. Aby regresja działała, nie potrzebujemy takiego założenia, ale aby mieć w pełni określony model statystyczny, musimy opisać go za pomocą zmiennych losowych, więc potrzebujemy rozkładów prawdopodobieństwa. Piszę o tym, ponieważ często można usłyszeć, jak ludzie mówią, że użyli modelu regresji dla swoich danych - w większości przypadków oznaczają raczej, że opisują dane w kategoriach liniowej zależności między wartościami docelowymi a predyktorami przy użyciu niektórych parametrów, niż naleganie na warunkowe normalność.
McCullagh, P. (2002). Co to jest model statystyczny? Kroniki statystyczne, 1225–1267.
Wasserman, L. (2013). Wszystkie statystyki: zwięzły kurs wnioskowania statystycznego. Skoczek.
źródło
In much of the following, it is important to distinguish between the model as a function and the associated set of distributions
) Czy tylko komentujesz wewnętrzną dwuznaczność między tymi dwoma znaczeniami, które dzielą ten sam termin,model
czy coś mi brakuje?Pomyśl o jako zestawie biletów . Możesz pisać rzeczy na bilecie. Zwykle bilet zaczyna się od imienia osoby lub obiektu w świecie rzeczywistym, który „reprezentuje” lub „modeluje”. Na każdym bilecie jest dużo wolnego miejsca na pisanie innych rzeczy.S
Możesz wykonać tyle kopii każdego biletu, ile chcesz. Model prawdopodobieństwa dla tej populacji świata rzeczywistego lub procesu polega na wykonaniu jednego lub więcej kopii każdego biletu, mieszając je i umieszczając je w pudełku. Jeśli ty - analityk - potrafisz ustalić, że proces losowego losowania jednego biletu z tego pola naśladuje wszystkie ważne zachowania tego, czego się uczysz, wtedy możesz dowiedzieć się wiele o świecie, myśląc o tym polu. Ponieważ niektóre bilety mogą być liczniejsze w pudełku niż inne, mogą mieć różne szanse na wylosowanie. Teoria prawdopodobieństwa bada te szanse.P
Gdy liczby są zapisywane na biletach (w spójny sposób), powodują one rozkład (prawdopodobieństwa). Rozkład prawdopodobieństwa jedynie opisuje część biletów w pudełku, którego numery mieszczą się w danym przedziale czasu.
Ponieważ zwykle nie wiemy dokładnie, jak zachowuje się świat, musimy sobie wyobrazić różne skrzynki, w których bilety pojawiają się z różnymi częstotliwościami względnymi. Zestaw tych pól to . Uważamy, że świat jest odpowiednio opisany przez zachowanie jednego z pól w . Twoim celem jest racjonalne odgadnięcie, które to pudełko, na podstawie tego, co widzisz na biletach, które wyciągnąłeś z niego.PP P
Jako przykład , (który jest praktyczny i realistyczna nie zabawka podręcznik) załóżmy, że badania szybkości reakcji chemicznej, jak to zmienia się wraz z temperaturą. Załóżmy, że teoria chemii przewiduje, że w zakresie temperatur od do stopni szybkość jest proporcjonalna do temperatury.0 100y 0 100
Planujesz zbadać tę reakcję zarówno w temperaturze jak i stopni, dokonując kilku obserwacji w każdej temperaturze. Tworzysz zatem bardzo, bardzo dużą liczbę pudełek. Wypełnisz każde pudełko biletami. Na każdym zapisana jest stała szybkości. Wszystkie bilety w danym polu mają zapisaną tę samą stałą stawki. Różne pola używają różnych stałych szybkości. 1000 100
Używając stałej szybkości zapisanej na dowolnym bilecie, zapisujesz również stawkę przy i stawkę przy stopniach: zadzwoń do tych i . Ale to jeszcze nie wystarczy na dobry model. Chemicy wiedzą również, że żadna substancja nie jest czysta, żadna ilość nie jest dokładnie mierzona i występują inne formy zmienności obserwacyjnej. Aby wymodelować te „błędy”, wykonujesz bardzo, bardzo wiele kopii swoich biletów. Na każdej kopii zmieniasz wartości i . W większości z nich zmieniasz je tylko trochę. W niektórych przypadkach możesz je bardzo zmienić. Zapisujesz tyle zmienionych wartości, ile planujesz zaobserwować w każdej temperaturze. Te obserwacje przedstawiają możliwe0 100 y0 y100 y0 y100 obserwowalne wyniki eksperymentu. W polu przejść każdy taki zestaw tych biletów: jest to model prawdopodobieństwa do czego może obserwować dla danej stałej szybkości.
To, co obserwujesz, jest modelowane poprzez wyciągnięcie biletu z tego pudełka i przeczytanie tylko zapisanych tam obserwacji. Nie zobaczysz podstawowych (prawdziwych) wartości lub . Nie można odczytać (prawdziwej) stałej szybkości. Nie są one dostępne w twoim eksperymencie.y0 y100
Każdy model statystyczny musi przyjmować pewne założenia dotyczące biletów w tych (hipotetycznych) polach. Na przykład, mamy nadzieję, że kiedy zmodyfikujesz wartości i , zrobiłeś to bez konsekwentnego zwiększania lub konsekwentnego zmniejszania jednego (jako całości, w ramce): byłoby to formą systematycznego uprzedzenia.y0 y100
Ponieważ obserwacje zapisane na każdym bilecie są liczbami, powodują rozkład prawdopodobieństwa. Założenia dotyczące pól są zazwyczaj sformułowane w kategoriach właściwości tych rozkładów, takich jak to, czy muszą one uśredniać do zera, być symetryczne, mieć kształt „krzywej dzwonowej”, są nieskorelowane lub cokolwiek innego.
To naprawdę wszystko. Podobnie jak prymitywna dwunastotonowa skala dała początek zachodniej muzyce klasycznej, kolekcja pudełek z biletami to prosta koncepcja, którą można wykorzystać w niezwykle bogaty i złożony sposób. Może modelować niemal wszystko, od rzutu monetą po bibliotekę filmów, bazy danych interakcji z witryną, zespoły mechaniki kwantowej i wszystko, co można zaobserwować i nagrać.
źródło
Definicja rozkładu jako przyporządkowania prawdopodobieństwa każdemu możliwemu zdarzeniu działa w przypadku rozkładu dyskretnego, ale staje się trudniejsza w przypadku ciągłych rozkładów, gdzie np. Wynikiem może być dowolna liczba na linii rzeczywistej. Bardzo często, gdy mówimy o rozkładach, myślimy o nich jako posiadające stałe parametry, takie jak dwumianowy rozkład mającego dwa parametry: po pierwsze, liczba obserwacji, a po drugie prawdopodobieństwo pojedynczej obserwacji jest wydarzeniem.π
Typowe parametryczne modele statystyczne opisują, w jaki sposób parametr (parametry) rozkładu zależą od pewnych rzeczy, takich jak czynniki (zmienna o dyskretnych wartościach) i zmienne towarzyszące (zmienne ciągłe). Na przykład, jeśli w rozkładzie normalnym założymy, że średnią można opisać pewną stałą liczbą („punkt przecięcia”) i pewną liczbą („współczynnik regresji”) pomnożoną przez wartość zmiennej towarzyszącej, otrzymujemy model regresji liniowej z zwykle rozkład błędu. W przypadku rozkładu dwumianowego jednym z powszechnie stosowanych modeli („regresja logistyczna”) jest założenie, że logit prawdopodobieństwa zdarzenia ( ) można opisać równaniem regresji, takim jakπ π/(1−π) intercept+β1covariate1+… . Podobnie w przypadku rozkładu Poissona wspólny model zakłada to dla logarytmu parametru szybkości („regresja Poissona”).
źródło
Rozkład prawdopodobieństwa podaje wszystkie informacje o tym, jak zmienia się wielkość losowa. W praktyce zazwyczaj nie mamy pełnego rozkładu prawdopodobieństwa naszej ilości odsetek. Możemy coś o tym wiedzieć lub zakładać, nie wiedząc ani nie zakładając, że wiemy o tym wszystko. Na przykład możemy założyć, że pewna ilość jest normalnie rozłożona, ale nic nie wiemy o średniej i wariancji. Następnie mamy kolekcję kandydatów do dystrybucji do wyboru; w naszym przykładzie są to wszystkie możliwe normalne rozkłady. Ten zbiór rozkładów tworzy model statystyczny. Używamy ich, zbierając dane, a następnie ograniczając naszą klasę kandydatów, tak aby wszyscy pozostali kandydaci byli zgodni z danymi w odpowiednim sensie.
źródło
Model jest określony przez plik PDF, ale nie jest to plik PDF.
Rozkład prawdopodobieństwa (PDF) to funkcja, która przypisuje prawdopodobieństwa liczbom, a jego wynik musi być zgodny z aksjomatami prawdopodobieństwa, jak wyjaśnił Tim .
Model jest w pełni zdefiniowany przez rozkład prawdopodobieństwa, ale jest czymś więcej. W przykładzie rzutu monetą naszym modelem może być „moneta jest uczciwa” + „każdy rzut jest niezależny”. Ten model jest określony przez plik PDF, który jest dwumianowy przy p = 0,5.
Można jednak wyobrazić sobie model, w którym rzuty nie są niezależne, w którym to przypadku nie jest już opisany przez dwumianowy plik PDF. Nadal model jest określony przez łączną dystrybucję (PDF) wszystkich zdarzeń . Chodzi o to, że formalnie model jest zawsze określony przez łączny rozkład zdarzeń.P(x1,x2,x3,...)
Jedną różnicą między modelem a plikiem PDF jest to, że model można interpretować jako hipotezę statystyczną. Na przykład, podrzucając monety, możemy wziąć pod uwagę model, w którym moneta jest uczciwa (p = 0,5) i że każdy rzut jest niezależny (dwumianowy), i powiedzieć, że to nasza hipoteza, którą chcemy przetestować na tle konkurencyjnej hipotezy .
Możesz także mieć konkurencyjne modele (np. Nie znamy i chcemy obliczyć, które jest najlepsze). Mówienie o konkurencyjnych plikach PDF nie ma sensu, ponieważ są one tylko obiektem matematycznym.p p
źródło
A model is specified by a PDF
Nie zgadzam się. Model może być również określony przez wiele plików PDF. Model może nie zostać określony przez brak pliku PDF: pomyśl o czymś takim jak SVM lub drzewo regresji.Zadajesz bardzo ważne pytanie, Alan, a powyżej otrzymałeś kilka dobrych odpowiedzi. Chciałbym zaoferować prostszą odpowiedź, a także wskazać dodatkowy wymiar rozróżnienia, którego nie dotyczyły powyższe odpowiedzi. Dla uproszczenia wszystko, co powiem tutaj, dotyczy parametrycznych modeli statystycznych.
Przede wszystkim może się okazać, że pomysł rodziny jest pomocny w połączeniu pytania z rzeczami, których nauczyłeś się w szkole średniej. (Dziwię się, że to słowo jeszcze nie pojawiło się na tej stronie!) Dawno temu dowiedziałeś się o kwadratowej rodzinie krzywych, . Parametryczny model statystyczny można traktować w ten sam sposób, jak rodzinę rozkładów . Prawdopodobnie przeprowadziłeś eksperymenty laboratoryjne na lekcjach chemii lub fizyki, w których zebrałeś dane i wykreśliłeś je w celu zidentyfikowania parametrów z prostej rodziny modeli, takich jak lub . Na najwyższym poziomie oszacowanie parametrów modelu statystycznego bardzo przypomina proces znajdowania nachyleniay = m x + b F = - k x m b ky=ax2+bx+c y=mx+b F=−kx m przechwytuje , lub znajduje stałą sprężyny . Kontynuując naukę matematyki, zobaczysz wszędzie „rodziny” różnego rodzaju bytów.b k
Tak więc moja krótka odpowiedź nr 1 na twoje pytanie brzmi: model statystyczny jest rodziną rozkładów.
Kolejny punkt, który chciałem poruszyć, dotyczy kwalifikatora - statystyki . Jak zauważa Judea Pearl w swojej „złotej regule analizy przyczynowej” [1, s350],
(Dla celów obecnych zapraszam do przeczytania „statystyki” zamiast „opartej na rozkładzie” i „modelu” zamiast „projektu”). Pearl pragnie przekazać, że nasze modele efektów przyczynowych w świat ( na przykład !) koniecznie zawiera więcej niż idee czysto statystyczne . Tak więc, biorąc twoje pytanie pod tytułem --- tj. Bez statystyk kwalifikacyjnych dołączonych do modelu --- pełna odpowiedź wymaga dalszego ostrzeżenia, że modele zazwyczaj zawierają idee przyczynowe, które leżą z natury poza prowincją statystyki, tj. Stwierdzeń o rozkładach prawdopodobieństwa .F=−kx
Zatem moja odpowiedź nr 2 na twoje pytanie brzmi: modele zwykle zawierają idee przyczynowe, których nie można wyrazić w kategoriach czysto dystrybucyjnych.
[1]: Pearl, Judea. Przyczynowość: modele, uzasadnienie i wnioskowanie. 2. edycja Cambridge, Wielka Brytania; New York: Cambridge University Press, 2009. Link do § 11.3.5, w tym cyt. 351.
źródło
causal
? Czy ma to jakieś bardziej niuansowe znaczenie, czy po prostu odnosi się do pojęciacausality
i relacji międzycauses
ieffects
? Dziękuję za odpowiedź, btw.