Co oznaczają „niezależne obserwacje”?

28

Próbuję zrozumieć, co oznacza założenie niezależnych obserwacji . Niektóre definicje to:

  1. „Dwa zdarzenia są niezależne wtedy i tylko wtedy, gdy .” ( Słownik terminów statystycznych )P.(zab)=P.(za)P.(b)
  2. „wystąpienie jednego zdarzenia nie zmienia prawdopodobieństwa innego” ( Wikipedia ).
  3. „pobieranie próbek z jednej obserwacji nie wpływa na wybór drugiej obserwacji” ( David M. Lane ).

Przykładem często zależnych obserwacji są uczniowie zagnieżdżeni w nauczycielach, jak poniżej. Załóżmy, że nauczyciele wpływają na uczniów, ale uczniowie nie wpływają na siebie nawzajem.

Jak więc naruszono te definicje tych danych? Próbkowanie [ocena = 7] dla [uczeń = 1] nie wpływa na rozkład prawdopodobieństwa dla oceny, która zostanie pobrana w następnej kolejności. (A może tak? A jeśli tak, to co przewiduje obserwacja 1 w odniesieniu do następnej obserwacji?)

Dlaczego obserwacje byłyby niezależne, gdybym dokonał pomiaru gender zamiast teacher_id? Czy nie wpływają one na obserwacje w ten sam sposób?

teacher_id   student_id   grade
         1            1       7
         1            2       7
         1            3       6
         2            4       8
         2            5       8
         2            6       9
RubenGeert
źródło
4
Można sugerować, że rozkład ocen dla nauczyciela 1 miał niższą wartość „średnią” niż dla nauczyciela 2, a zatem wszyscy uczniowie nauczyciela 1 mieliby zwykle niższe oceny niż uczniowie nauczyciela 2. Innymi słowy , rozkład uczniów / klas dla dwóch nauczycieli może być różny. To wystarczyłoby, aby uzależnić obserwacje.
Przywróć Monikę - G. Simpson
1
@GavinSimpson: Myślałem o tej dokładnej linii rozumowania. Jednak to, co jeśli ja zastąpić teacherprzez gender? Płeć jest obecna w większości danych społecznych i do pewnego stopnia koreluje z niemal wszystkim.
RubenGeert
1
Z pewnością musi zależeć od odpowiedzi. Gdybyśmy spojrzeli na stopnie studentów nauk przyrodniczych w Wielkiej Brytanii, być może przyniosłoby to efekt przy różnych rozkładach osiągnięć dla obu płci, średnio w badanych populacjach. W każdym razie wszystko to ma znaczenie (w modelu statystycznym) dla reszt, lub ułożyło się inaczej dla odpowiedzi zależnych od dopasowanego modelu. Innymi słowy, jeśli obserwacje nie są niezależne, jest to OK, o ile model uwzględnia to w taki sposób, że reszty są niezależne.
Przywróć Monikę - G. Simpson
4
Nie można przyjąć ani (1), ani (2) definicji definicji (statystycznej) niezależności, ponieważ niezależność można zdefiniować bez odniesienia do związku przyczynowego. Wszystkie trzy cytaty są jedynie próbami dostarczenia nieformalnych, intuicyjnych przykładów . ((3) być może można by uznać za definicję, pod warunkiem, że masz dostęp do ilościowej, rygorystycznej definicji ilości informacji.) Dlatego dobrym pomysłem byłoby odwołanie się do faktycznej definicji, takiej jak te, które pojawiają się pod nagłówkiem „Definicja” w artykule w Wikipedii, do którego się odwołujesz.
whuber
1
Nie, możesz uczynić reszty niezależnymi (lub przynajmniej zmniejszyć zależność do takiego stopnia, że ​​reszty wydają się niezależne). Wynika to, powiedzmy, z założeń modelu liniowego; gdzie Λ jest macierzą korelacji. Zwykle zakłada się, że Λ jest matrycą tożsamości, stąd odchyłki od zera są zerowe, a zatem założenie niezależności dotyczy reszt. Innymi słowy, choć jest to stwierdzenie o y uwarunkowane dopasowanego modelu. εN.(0,σ2)Λ)ΛΛy
Przywróć Monikę - G. Simpson

Odpowiedzi:

11

W teorii prawdopodobieństwa niezależność statystyczna (która nie jest tym samym co niezależność przyczynowa) jest zdefiniowana jako twoja własność (3), ale w konsekwencji następuje (1) . Zdarzenia A i B uważa się za statystycznie niezależne wtedy i tylko wtedy, gdy:ZAb

P.(ZAb)=P.(ZA)P.(b).

Jeżeli to jeżeli:P.(b)>0

P.(ZA|b)=P.(ZAb)P.(b)=P.(ZA)P.(b)P.(b)=P.(ZA).

Oznacza to, że niezależność statystyczna oznacza, że ​​wystąpienie jednego zdarzenia nie wpływa na prawdopodobieństwo drugiego. Innym sposobem powiedzenia tego jest to, że wystąpienie jednego zdarzenia nie powinno zmienić twoich przekonań na temat drugiego. Pojęcie niezależności statystycznej jest zasadniczo rozszerzone ze zdarzeń na zmienne losowe w sposób, który pozwala na analogiczne stwierdzenia dla zmiennych losowych, w tym ciągłych zmiennych losowych (które mają zerowe prawdopodobieństwo jakiegokolwiek konkretnego wyniku). Traktowanie niezależności zmiennych losowych zasadniczo obejmuje te same definicje, które stosuje się do funkcji rozkładu.


Ważne jest, aby zrozumieć, że niezależność jest bardzo silną właściwością - jeśli zdarzenia są statystycznie niezależne, to (z definicji) nie możemy dowiedzieć się o jednym z obserwacji drugiego. Z tego powodu modele statystyczne na ogół obejmują założenia warunkowej niezależności, biorąc pod uwagę pewien podstawowy rozkład lub parametry. Dokładne ramy pojęciowe zależą od tego, czy używa się metod bayesowskich, czy klasycznych. Pierwsza obejmuje wyraźną zależność między obserwowalnymi wartościami, a druga obejmuje (skomplikowaną i subtelną) ukrytą formę zależności. Właściwe zrozumienie tego problemu wymaga odrobiny zrozumienia statystyki klasycznej w porównaniu do statystyki bayesowskiej.

Modele statystyczne często mówią, że wykorzystują założenie, że sekwencje zmiennych losowych są „niezależne i identycznie rozmieszczone (IID)”. Na przykład, możesz mieć zauważalnego sekwencję , co oznacza, że ​​każda obserwowalna zmienna losowa X i jest zwykle rozkładana ze średnią μ i odchyleniem standardowym σX1,X2),X3),...IID N(μ,σ2))Xjaμσ. Każda ze zmiennych losowych w sekwencji jest „niezależna” od innych w tym sensie, że jej wynik nie zmienia podanego rozkładu innych wartości. W tego rodzaju modelu wykorzystujemy zaobserwowane wartości sekwencji, aby oszacować parametry w modelu, a następnie możemy z kolei przewidzieć nieobserwowane wartości sekwencji. To koniecznie wymaga użycia niektórych zaobserwowanych wartości do poznania innych.

Statystyka bayesowska: wszystko jest proste koncepcyjnie. Załóżmy, że są warunkowo IID, biorąc pod uwagę parametry μ i σ , i traktują te nieznane parametry jako zmienne losowe. Biorąc pod uwagę jakikolwiek zdegenerowany wcześniej rozkład dla tych parametrów, wartości w obserwowalnej sekwencji są (bezwarunkowo) zależne, ogólnie z korelacją dodatnią. Dlatego ma sens sens, że obserwowane wyniki wykorzystujemy do przewidywania później niezauważonych wyników - są one warunkowo niezależne, ale bezwarunkowo zależne.X1,X2),X3),...μσ

Statystyka klasyczna: jest to dość skomplikowane i subtelne. Załóżmy, że są IID, biorąc pod uwagę parametry μ i σX1,X2),X3),...μσ, ale traktuj te parametry jako „nieznane stałe”. Ponieważ parametry są traktowane jako stałe, nie ma wyraźnej różnicy między niezależnością warunkową i bezwarunkową w tym przypadku. Niemniej jednak nadal używamy obserwowanych wartości do szacowania parametrów i przewidywania nieobserwowanych wartości. Dlatego wykorzystujemy zaobserwowane wyniki do przewidywania później niezauważonych wyników, nawet jeśli są one teoretycznie „niezależne” od siebie. Ta pozorna niezgodność została szczegółowo omówiona w O'Neill, B. (2009) Wymienność, korelacja i efekt Bayesa. Międzynarodowy przegląd statystyczny 77 (2) , s. 241–250 .


Stosując to do swoich danych ocen studentów, prawdopodobnie coś takiego modelu, zakładając, że gradejest warunkowo niezależne danym teacher_id. Użyłbyś tych danych, aby wyciągnąć wnioski na temat rozkładu ocen dla każdego nauczyciela (co nie byłoby takie samo), a to pozwoliłoby ci na przewidywanie nieznanego gradeinnego ucznia. Ponieważ gradezmienna jest używana w wnioskowaniu, wpłynie to na twoje przewidywania dotyczące dowolnej nieznanej gradezmiennej dla innego ucznia. Wymiana teacher_idz gendernie zmienia to; w obu przypadkach masz zmienną, której możesz użyć jako predyktora grade.

Jeśli użyjesz metody bayesowskiej, będziesz mieć wyraźne założenie o warunkowej niezależności i wcześniejszy rozkład rozkładów ocen nauczycieli, co prowadzi do bezwarunkowej (przewidywalnej) zależności ocen, umożliwiając racjonalne wykorzystanie jednej oceny w przewidywaniu drugiej. Jeśli korzystasz z klasycznych statystyk, będziesz mieć założenie niezależności (w oparciu o parametry, które są „nieznanymi stałymi”) i będziesz używać klasycznych metod prognozowania statystycznego, które pozwalają na użycie jednej klasy do przewidywania drugiej.


Istnieją pewne podstawowe prezentacje teorii prawdopodobieństwa, które definiują niezależność za pomocą warunkowego rachunku prawdopodobieństwa, a następnie podają łączny rachunek prawdopodobieństwa w konsekwencji. To jest mniej powszechne.

Przywróć Monikę
źródło
6
Niezależność statystyczna jest w dużej mierze tym, co opisujesz w pierwszej części odpowiedzi. Ale twoje zdanie „... jeśli zdarzenia są statystycznie niezależne, to (z definicji) nie możemy dowiedzieć się o jednym z obserwacji drugiego”. jest rażąco błędne. Świat jest pełen statystycznie niezależnych, ale podobnych zdarzeń i zmiennych losowych.
Alecos Papadopoulos
1
Czy „uczenie się” nie oznaczałoby zmiany naszych przekonań na temat czegoś w oparciu o obserwację innego? Jeśli tak, to czy niezależność (definitywnie) nie wyklucza tego?
Przywróć Monikę
6
Zamierzałem zrobić podobny komentarz do @Alecos. Ogólne wrażenie, jakie można odnieść, to twierdzenie, że obserwacja jednej realizacji zmiennej losowej nie mówi nam nic o jej rozkładzie , więc nie można przewidzieć niczego o drugiej niezależnej realizacji. Gdyby tak było, większość teorii pobierania próbek i szacowania byłaby niemożliwa do opracowania. Ale masz rację w tym sensie, że jeśli znamy F i obserwujemy jedną realizację, to nie daje nam żadnych dodatkowych informacji o żadnej innej niezależnej realizacji. fafa
whuber
4
Myślę, że problemem jest to, że model standardowy IID z dystrybucji jest niejawnie przy użyciu założenie o warunkowej niezależności daną znajomość F . Pod warunkiem znajomości F obserwacje są niezależne, ale bezwarunkowo masz sytuację, w której każda obserwacja dostarcza informacji o F , co następnie wpływa na twoje przekonania na temat innych obserwacji. fafafafa
Przywróć Monikę
2
Trudność w tym problemie polega na tym, że klasyczne statystyki traktują leżący u podstaw rozkład i parametry jako „nieznane stałe”, a zatem nie dokonują wyraźnego rozróżnienia między niezależnością warunkową lub bezwarunkową, w tym przypadku. W statystykach bayesowskich wszystko jest bardzo proste.
Przywróć Monikę
4

Niech przez k - wymiarowy wektor losowy, czyli zbiór stałej pozycji zmiennych losowych (mierzalne rzeczywistymi funkcjami).x=(X1,...,Xjot,...,Xk)k-

Rozważyć wiele takich wektorów, np , a indeks tych wektorów o i = 1 , . . . , n , powiedzmynja=1,...,n

i traktować je jako zespół zwany "próbka",S=( x 1 ,..., x ı ,.,., x n ). Następnie nazywamy każdyk-

xja=(X1ja,...,Xjotja,...,Xkja)
S.=(x1,...,xja,...,xn)k- wektor wymiarowy „obserwacja” (chociaż tak naprawdę staje się jednym tylko wtedy, gdy mierzymy i rejestrujemy realizację zaangażowanych zmiennych losowych).

Rozpatrzmy najpierw przypadek, w którym istnieje albo funkcja masy prawdopodobieństwa (PMF), albo funkcja gęstości prawdopodobieństwa (PDF), a także połącz takie funkcje. Oznaczmy przez stawu lub stawów PMF PDF każdego wektora losowego, a f ( x 1 , . . . , X i , . . . , X n ) stawu lub stawów PMF PDF tych wektorów razem. faja(xja),ja=1,...,nfa(x1,...,xja,...,xn)

Następnie próbka nazywana jest „próbką niezależną”, jeżeli zachowana jest następująca równość matematyczna:S.

fa(x1,...,xja,...,xn)=ja=1nfaja(xja),(x1,...,xja,...,xn)reS.

gdzie jest wspólną domeną utworzoną przez n losowych wektorów / obserwacji.reS.n

Oznacza to, że „obserwacje” są „wspólnie niezależne” (w sensie statystycznym lub „niezależne w prawdopodobieństwie”, jak to kiedyś mówi stare powiedzenie). Zwyczaj polega na nazywaniu ich „niezależnymi obserwacjami”.

Należy zauważyć, że właściwość statystycznej niezależności jest powyżej wskaźnika , tj. Między obserwacjami. Nie ma to związku z tym, jakie są probabilistyczne / statystyczne relacje między zmiennymi losowymi w każdej obserwacji (w ogólnym przypadku traktujemy tutaj, gdzie każda obserwacja jest wielowymiarowa).ja

Należy również zauważyć, że w przypadkach, w których mamy ciągłe zmienne losowe bez gęstości, powyższe można wyrazić w kategoriach funkcji rozkładu.

To właśnie oznaczają „niezależne obserwacje” . Jest to precyzyjnie określona właściwość wyrażona w kategoriach matematycznych. Zobaczmy, co to oznacza .

NIEKTÓRE KONSEKWENCJE MAJĄCE NIEZALEŻNE UWAGI

A. Jeśli dwie obserwacje są częścią grupy wspólnie niezależnych obserwacji, to są one również „niezależne parami” (statystycznie),

fa(xja,xm)=faja(xja)fam(xm)jam,ja,m=1,...,n

To z kolei oznacza, że ​​warunkowe pliki PMF / PDF są równe plikom „marginalnym”

fa(xjaxm)=faja(xja)jam,ja,m=1,...,n

Uogólnia to na wiele argumentów, powiedzmy uwarunkowanych lub uwarunkowanych

fa(xja,xxm)=fa(xja,x),fa(xjaxm,x)=faja(xja)

itd., o ile indeksy po lewej stronie różnią się od indeksów po prawej stronie linii pionowej.

Oznacza to, że jeśli faktycznie obserwujemy jedną obserwację, prawdopodobieństwo charakteryzujące każdą inną obserwację próbki nie zmienia się. Jeśli chodzi o przewidywania , niezależna próbka nie jest naszym najlepszym przyjacielem. Wolelibyśmy mieć zależność, aby każda obserwacja pomogła nam powiedzieć coś więcej na temat każdej innej obserwacji.

B. Z drugiej strony niezależna próbka ma maksymalną zawartość informacyjną. Każda obserwacja, będąc niezależna, zawiera informacje, których nie można wywnioskować, w całości lub w części, na podstawie innych obserwacji w próbie. Tak więc suma jest maksymalna, w porównaniu z dowolną porównywalną próbą, w której istnieje pewna zależność statystyczna między niektórymi obserwacjami. Ale jaki jest pożytek z tych informacji, jeśli nie mogą nam pomóc poprawić naszych prognoz?

To jest pośrednia informacja o prawdopodobieństwach, które charakteryzują zmienne losowe w próbce. Im bardziej obserwacje te mają wspólne cechy (wspólny rozkład prawdopodobieństwa w naszym przypadku), tym bardziej jesteśmy w stanie lepiej je odkryć, jeśli nasza próbka jest niezależna.

Innymi słowy, jeśli próbka jest niezależna i „identycznie rozłożona”, to znaczy

faja(xja)=fam(xm)=fa(x),jam

fa(x)fajot(xjotja)

fa(xjaxm)=faja(xja)xja faja

Dlatego jeśli chodzi o szacowanie (które czasami jest używane jako termin „catch-all”, ale tutaj należy je odróżnić od koncepcji przewidywania ), niezależna próba jest naszym „najlepszym przyjacielem”, jeśli jest połączona z „identycznie rozłożonym” " własność.

C. Wynika z tego również, że niezależna próbka obserwacji, z których każda charakteryzuje się zupełnie innym rozkładem prawdopodobieństwa, bez żadnych wspólnych cech, jest tak bezwartościowym zbiorem informacji, jak to tylko możliwe (oczywiście każda informacja sama w sobie jest godne uwagi, chodzi tutaj o to, że razem nie można ich łączyć w celu zaoferowania czegoś przydatnego). Wyobraź sobie próbkę zawierającą trzy obserwacje: jedną zawierającą (cechy ilościowe) owoce z Ameryki Południowej, drugą zawierającą góry Europy, a trzecią zawierającą ubrania z Azji. Całkiem interesujące informacje, wszystkie trzy, ale razem jako próbka nie mogą zrobić nic statystycznie użytecznego dla nas.

Innymi słowy, warunkiem koniecznym i wystarczającym, aby niezależna próbka była przydatna, jest to, że obserwacje mają pewne cechy statystyczne wspólne. Dlatego w statystyce słowo „próbka” nie jest synonimem ogólnie „zbierania informacji”, ale „zbieraniem informacji o podmiotach, które mają pewne wspólne cechy”.

ZASTOSOWANIE DO PRZYKŁADU DANYCH OP

W odpowiedzi na prośbę użytkownika @gung przyjrzyjmy się przykładowi OP w świetle powyższego. Racjonalnie zakładamy, że jesteśmy w szkole, w której jest więcej niż dwóch nauczycieli i więcej niż sześciu uczniów. A) a) pobieramy próbki zarówno uczniów, jak i nauczycieli, oraz b) uwzględniamy w naszym zestawie danych ocenę odpowiadającą każdej kombinacji nauczyciel-uczeń.

solP.T.S.=(s1,...,s6)

s1=(T.1,P.1,sol1)s2)=(T.1,P.2),sol2))s3)=(T.1,P.3),sol3))s3)=(T.2),P.4,sol4)s4=(T.2),P.5,sol5)s5=(T.2),P.6,sol6)

P.jasolja
T.1,T.2)

Ale niezależnie od tego, jakie przyjmiemy / przyczynowe założenie dotyczące relacji między nauczycielami a uczniami , pozostaje faktem, że obserwacjes1,s2),s3)zawierają tę samą zmienną losową (T.1), podczas gdy obserwacje s4,s5,s6 zawiera również tę samą zmienną losową (T.2)).

Zwróć uwagę na różnicę między „tą samą zmienną losową” a „dwiema różnymi zmiennymi losowymi o identycznych rozkładach”.

Więc nawet jeśli założymy, że „nauczyciele NIE wpływają na uczniów”, to jednak nasza próbka zdefiniowana powyżej nie jest próbą niezależną, ponieważ s1,s2),s3) są statystycznie zależne przez T.1, podczas s4,s5,s6 są statystycznie zależne przez T.2).

Załóżmy teraz, że wykluczamy zmienną losową „nauczyciel” z naszej próbki. Czy próba (uczeń, klasa) sześciu obserwacji jest próbką niezależną? Tutaj przyjmujemy założenia dotyczące relacji strukturalnych między nauczycielami, uczniami i klasami.

Po pierwsze, czy nauczyciele bezpośrednio wpływają na zmienną losową „Ocena”, być może poprzez różne „postawy / style oceniania”? Na przykładT.1 może być „trudnym równiarką” T.2)może nie. W takim przypadku „niewidzenie” zmiennej „Nauczyciel” nie uniezależnia próbki, ponieważ jest ona terazsol1,sol2),sol3) które są zależne od wspólnego źródła wpływów, T.1 (i analogicznie dla pozostałych trzech).

Ale powiedz, że nauczyciele są pod tym względem identyczni. Następnie przy założonym założeniu, że „nauczyciele wpływają na uczniów”, mamy ponownie, że pierwsze trzy obserwacje są od siebie zależne, ponieważ nauczyciele wpływają na uczniów, którzy wpływają na stopnie, i dochodzimy do tego samego rezultatu, choć pośrednio w tym przypadku (i podobnie w przypadku pozostałe trzy). Zatem znowu próbka nie jest niezależna.

PRZYPADEK PŁCI

Teraz zróbmy próbkę sześciu obserwacji (Uczeń, Stopień) „warunkowo niezależną w odniesieniu do nauczyciela” (patrz inne odpowiedzi), zakładając, że w rzeczywistości wszyscy sześcioro uczniów ma tego samego nauczyciela. Ale dodatkowo uwzględnijmy w próbce zmienną losową „solmi= Płeć ”, która tradycyjnie przyjmuje dwie wartości (M.,fa), a ostatnio zaczął brać więcej. Nasza po raz kolejny trójwymiarowa próbka sześciu obserwacji jest teraz

s1=(solmi1,P.1,sol1)s2)=(solmi2),P.2),sol2))s3)=(solmi3),P.3),sol3))s3)=(solmi4,P.4,sol4)s4=(solmi5,P.5,sol5)s5=(solmi6,P.6,sol6)

Zwróć uwagę, że to, co zawarliśmy w opisie próby w odniesieniu do Płeć, nie jest faktyczną wartością, jaką przyjmuje dla każdego ucznia, ale zmienną losową „Płeć” . Spójrz na początek tej bardzo długiej odpowiedzi: Próbka nie jest zdefiniowana jako zbiór liczb (lub ustalonych liczbowo lub ogólnie wartości nie), ale jako zbiór zmiennych losowych (tj. Funkcji).

Now, does the gender of one pupil influences (structurally or statistically) the gender of the another pupil? We could reasonably argue that it doesn't. So from that respect, the Gei variables are independent. Does the gender of pupil 1, Ge1, affects in some other way directly some other pupil (P2,P3,...)? Hmm, there are battling educational theories if I recall on the matter. So if we assume that it does not, then off it goes another possible source of dependence between observations. Finally, does the gender of a pupil influence directly the grades of another pupil? if we argue that it doesn't, we obtain an independent sample (conditional on all pupils having the same teacher).

Alecos Papadopoulos
źródło
Nie zgadzam się w twoim punkcie B. Dla niektórych celów, takich jak oszacowanie średniej, ujemna korelacja jest lepsza niż niezależność.
kjetil b halvorsen
@kjetil Lepiej w jakim sensie?
Alecos Papadopoulos
Byłoby pomocne, gdybyś mógł konkretnie połączyć to z pytaniami PO w tekście. Biorąc to pod uwagę, w jaki sposób rozumiemy, że wymienione obserwacje nie są niezależne? i czym różni się od pomijania nauczycieli od seksu?
Gung - Przywróć Monikę
@gung Włączyłem pewne opracowanie zgodnie z sugerowanymi przez ciebie liniami.
Alecos Papadopoulos
Lepiej w sensie zmniejszenia wariancji
kjetil b halvorsen
2

Definicje niezależności statystycznej, które podajesz w swoim poście, są zasadniczo poprawne, ale nie trafiają do sedna założenia niezależności w modelu statystycznym . Aby zrozumieć, co rozumiemy przez założenie niezależnych obserwacji w modelu statystycznym, pomocne będzie ponowne zapoznanie się z modelem statystycznym na poziomie koncepcyjnym.

Modele statystyczne jako przybliżenia „kostek natury”

Użyjmy znanego przykładu: zbieramy losową próbkę dorosłych ludzi (z dobrze określonej populacji - powiedzmy, wszystkich dorosłych ludzi na ziemi) i mierzymy ich wysokości. Chcemy oszacować średni wzrost populacji dorosłych ludzi. Aby to zrobić, konstruujemy prosty model statystyczny, zakładając, że wysokości ludzi wynikają z rozkładu normalnego.

Nasz model będzie dobry, jeśli rozkład normalny zapewnia dobre przybliżenie tego, jak natura „podnosi” wysokość dla ludzi. Oznacza to, że jeśli symulujemy dane w naszym normalnym modelu, czy wynikowy zestaw danych przypomina (w sensie statystycznym) to, co obserwujemy w naturze? Czy w kontekście naszego modelu nasz generator liczb losowych zapewnia dobrą symulację skomplikowanego procesu stochastycznego, który natura wykorzystuje do określania wysokości losowo wybranych dorosłych ludzi („kostki natury”)?

Założenie niezależności w prostym kontekście modelowania

Kiedy zakładaliśmy, że możemy przybliżać „kości natury” poprzez losowanie liczb losowych z rozkładu normalnego, nie mieliśmy na myśli, że narysujemy jedną liczbę z rozkładu normalnego, a następnie przypiszemy tę wysokość każdemu. Chodziło nam o to, że niezależnie narysowalibyśmy liczby dla wszystkich z tego samego rozkładu normalnego. To nasze założenie o niezależności.

Wyobraź sobie teraz, że nasza próbka dorosłych nie była próbą losową, ale pochodziła z garstki rodzin. Wysokość w niektórych rodzinach, a krótkość w innych. Powiedzieliśmy już, że jesteśmy gotowi założyć, że wysokości wszystkich dorosłych pochodzą z jednej normalnej dystrybucji. Ale próbkowanie z rozkładu normalnego nie zapewniłoby zestawu danych, który wyglądałby bardzo podobnie do naszej próbki (nasza próbka pokazywałaby „skupiska” punktów, niektóre krótkie, inne wysokie - każda grupa to rodzina). Wysokości osób w naszej próbie nie są niezależnymi wyciągnięciami z ogólnego rozkładu normalnego.

Założenie niezależności w bardziej skomplikowanym kontekście modelowania

Ale nie wszystko stracone! Być może uda nam się zapisać lepszy model dla naszej próbki - taki, który zachowa niezależność wysokości. Na przykład moglibyśmy zapisać model liniowy, w którym wysokości wynikają z rozkładu normalnego ze średnią zależną od rodziny, do której należy podmiot. W tym kontekście rozkład normalny opisuje różnicę resztkową , PO której uwzględnimy wpływ rodziny. Niezależne próbki z rozkładu normalnego mogą być dobrym modelem dla tej resztkowej zmienności.

Ogólnie rzecz biorąc, tym, co zrobiliśmy, jest zapisanie bardziej wyrafinowanego modelu tego, jak oczekujemy, że kości natury będą zachowywać się w kontekście naszych badań. Zapisując dobry model, nadal możemy być uzasadnieni, zakładając, że losowa część modelu (tj. Losowa zmienność wokół średnich rodziny) jest niezależnie próbkowana dla każdego członka populacji.

Założenie (warunkowe) niezależności w ogólnym kontekście modelowania

Zasadniczo modele statystyczne działają przy założeniu, że dane pochodzą z pewnego rozkładu prawdopodobieństwa. Parametry tego rozkładu (jak średnia rozkładu normalnego w powyższym przykładzie) mogą zależeć od zmiennych towarzyszących (podobnie jak rodzina w powyższym przykładzie). Ale oczywiście możliwe są nieskończone odmiany. Rozkład może nie być normalny, parametr zależny od zmiennych towarzyszących może nie być wartością średnią, forma zależności może nie być liniowa itp. WSZYSTKIE z tych modeli opierają się na założeniu, że zapewniają one dość dobre przybliżenie kostek natury zachowuj się (ponownie, że dane symulowane w modelu będą statystycznie podobne do rzeczywistych danych uzyskanych przez naturę).

Gdy symulujemy dane w modelu, ostatnim krokiem zawsze będzie narysowanie liczby losowej zgodnie z pewnym modelowanym rozkładem prawdopodobieństwa. Są to losowania, które zakładamy, że są od siebie niezależne. Rzeczywiste dane, które otrzymujemy, mogą nie wyglądać na niezależne, ponieważ zmienne towarzyszące lub inne cechy modelu mogą nakazać nam stosowanie różnych rozkładów prawdopodobieństwa dla różnych losowań (lub zestawów losowań). Ale wszystkie te informacje muszą być wbudowane w sam model. Nie możemy pozwolić, aby losowa liczba losowa zależała od tego, jakie wartości narysowaliśmy dla innych punktów danych. Zatem zdarzenia, które muszą być niezależne, są rzutami „kostek natury” w kontekście naszego modelu.

Przydatne jest określenie tej sytuacji jako niezależności warunkowej , co oznacza, że ​​punkty danych są od siebie niezależne, biorąc pod uwagę (tj. Uwarunkowane) zmienne towarzyszące. W naszym przykładzie wzrostu zakładamy, że mój wzrost i wzrost mojego brata uwarunkowane moją rodziną są od siebie niezależne, a także niezależne od twojego wzrostu i wzrostu twojej siostry uwarunkowane od twojej rodziny. Gdy znamy czyjąś rodzinę, wiemy, z jakiego rozkładu normalnego wyciągnąć, aby zasymulować ich wzrost, a losowania dla różnych osób są niezależne niezależnie od ich rodziny (nawet jeśli nasz wybór normalnego rozkładu, z którego należy rysować, zależy od rodziny). Możliwe jest również, że nawet po zajęciu się strukturą rodzinną naszych danych nadal nie osiągamy dobrej niezależności warunkowej (być może ważne jest również na przykład modelowanie płci).

Ostatecznie to, czy sensowne jest przyjęcie warunkowej niezależności obserwacji, jest decyzją, którą należy podjąć w kontekście konkretnego modelu. Dlatego na przykład w regresji liniowej nie sprawdzamy, czy dane pochodzą z rozkładu normalnego, ale sprawdzamy, czy RESIDUALS pochodzą z rozkładu normalnego (i z SAMEGO rozkładu normalnego w pełnym zakresie dane). Regresja liniowa zakłada, że ​​po uwzględnieniu wpływu zmiennych towarzyszących (linia regresji), dane są próbkowane niezależnie od rozkładu normalnego, zgodnie ze ścisłą definicją niezależności w pierwotnym poście.

W kontekście twojego przykładu

„Nauczyciel” w twoich danych może być jak „rodzina” w przykładzie wysokości.

Ostatni obrót

Wiele znanych modeli zakłada, że ​​reszty powstają z rozkładu normalnego. Wyobraź sobie, że podałem ci dane, które bardzo wyraźnie NIE były normalne. Może są mocno wypaczone, a może bimodalne. Powiedziałem ci „te dane pochodzą z normalnej dystrybucji”.

„Nie ma mowy”, mówisz, „To oczywiste, że to nie jest normalne!”

„Kto powiedział coś o tym, że dane są normalne?” Mówię. „Powiedziałem tylko, że pochodzą z normalnej dystrybucji”.

„Jeden w jednym!” mówisz. „Wiemy, że histogram rozsądnie dużej próbki z rozkładu normalnego będzie wyglądał w przybliżeniu normalnie!”

„Ale”, mówię, „nigdy nie powiedziałem, że dane były próbkowane niezależnie od rozkładu normalnego. DO pochodzą z rozkładu normalnego, ale nie są to niezależne losowania”.

Założenie (warunkowej) niezależności w modelowaniu statystycznym ma na celu zapobieganie ignorowaniu przez rozkład inteligentnych algorytmów, takich jak ja, rozkładu reszt i niewłaściwemu stosowaniu modelu.

Dwie ostatnie uwagi

1) Termin „kostki natury” nie jest pierwotnie mój, ale pomimo zapoznania się z kilkoma źródłami nie mogę dowiedzieć się, skąd go wziąłem w tym kontekście.

2) Niektóre modele statystyczne (np. Modele autoregresyjne) nie wymagają w ten sposób niezależności obserwacji. W szczególności pozwalają one na zależność rozkładu próbkowania dla danej obserwacji nie tylko od stałych zmiennych towarzyszących, ale także od danych, które pojawiły się przed nimi.

Jacob Socolar
źródło
Dzięki za to. Podoba mi się, że jest to bardzo przystępny sposób. Zajmujesz się kwestią tego, jak to wygląda u nauczyciela, czy możesz rozszerzyć dyskusję, aby również dotyczyła idei seksu jako współzmiennej?
Gung - Przywróć Monikę