Co oznacza „zmienna losowa”?

Odpowiedzi:

35

Zmienna losowa to zmienna, której wartość zależy od nieznanych zdarzeń. Możemy podsumować nieznane zdarzenia jako „stan”, a następnie zmienna losowa jest funkcją stanu.

Przykład:

Załóżmy, że mamy trzy rzuty kostkami ( , , ). Następnie stan .D1D2D3S=(D1,D2,D3)

  1. Jedna losowa zmienna to liczba 5s. To jest:X

X=(D1=5?)+(D2=5?)+(D3=5?)
  1. Inną losową zmienną jest suma rzutów kostką. To jest:Y

Y=D1+D2+D3
Paweł
źródło
Dzięki za jasną i zwięzłą odpowiedź. Rodzi to pytanie o cel oddzielenia nieznanego stanu od wyniku (wydaje mi się, że w ten sposób nazywana jest dziedzina i zakres „zmiennej losowej” w teorii prawdopodobieństwa). Wygląda na to, że nazywa się stan nieznany a sample, który poprosiłem o odróżnienie od wyników . Dlaczego musisz wprowadzić funkcję i nazwać ją zmienną losową, chociaż jest ona absolutnie deterministyczna i wcale nie zmienna? Dlaczego nie możesz od razu wypróbować wyniku?
Val
2
Kiedy „zdarzenia” stają się „znane”, co dzieje się ze zmienną losową? Zgodnie z tą odpowiedzią nie może już istnieć! Oparcie tej odpowiedzi na tak mglistych ideach jak „znane” - które jest czysto subiektywne - czyni ją mniej niż zadowalającą jako definicja lub wyjaśnienie zmiennych losowych.
whuber
1
@ Whuber Angielski i inny ludzki język są z konieczności nieprecyzyjne. Wygląda na to, że faktycznie wybieracie słowo „zależy”, a nie „znane”. „jest funkcją” jest bardziej precyzyjne, ale wówczas „nieznane zdarzenia” są niejasne, więc matematycy definiują „przestrzeń prawdopodobieństwa”, „sigma algebra”, „mierzalne funkcje” itp. Jeśli potrzebujesz bardziej rygorystycznego traktowania, Wikipedia has it: en.wikipedia.org/wiki/Random_variable
Paul
1
@whuber Podczas gdy wikipedia rzuca się na matematyczny żargon, aby uzyskać precyzję, zauważam, że twoja odpowiedź, przykład przyzwoitego laika na to wszystko, choć warta przeczytania, wymaga około 16 akapitów do wykonania. Ale co powiedzieć studentowi, który chce odpowiedzi, której odczytanie zajmuje 5 sekund? Klienci doceniają zwięzłość definicji.
Paul
5
Jest to mierzalna funkcja wartości rzeczywistej w przestrzeni prawdopodobieństwa. Z każdym z tych terminów technicznych - „mierzalna”, „funkcja o wartości rzeczywistej” i „przestrzeń prawdopodobieństwa”, szacuję, że straciłem 90% potencjalnej publiczności, pozostawiając zaledwie 0,1% faktycznie rozumiejąc i doceniając definicję. Nawiasem mówiąc, jest to czysto matematyczna definicja. Jest bezużyteczny, dopóki nie zostanie określone, w jaki sposób można go zastosować do prawdziwego problemu statystycznego - ale przynajmniej jest poprawny (jeśli nie całkowicie ogólny).
whuber
69

Wprowadzenie

Rozważając ostatni komentarz, zauważam, że wszystkie odpowiedzi do tej pory cierpią z powodu użycia niezdefiniowanych terminów, takich jak „zmienna” i niejasnych terminów, takich jak „nieznane”, lub odwoływania się do technicznych pojęć matematycznych, takich jak „funkcja” i „przestrzeń prawdopodobieństwa”. Co powinniśmy powiedzieć osobie niematematycznej, która chciałaby prostej, intuicyjnej, ale dokładnej definicji „zmiennej losowej”? Po wstępnych opisach prostego modelu zjawisk losowych przedstawiam taką definicję, która jest wystarczająco krótka, aby zmieściła się w jednej linii. Ponieważ może nie w pełni zaspokoić cognoscenti , później wyjaśnia, jak rozszerzyć to do zwykłej definicji technicznej.

Bilety w pudełku

Jednym ze sposobów podejścia do idei zmiennej losowej jest odwołanie się do modelu losowości biletów w pudełku . Ten model zastępuje eksperyment lub obserwację pudełkiem pełnym biletów. Na każdym bilecie zapisany jest możliwy wynik eksperymentu. (Wynik może być tak prosty jak „główki” lub „ogony”, ale w praktyce jest to bardziej skomplikowana sprawa, taka jak historia cen akcji, pełny zapis długiego eksperymentu lub sekwencja wszystkich słów w dokumencie .) Wszystkie możliwe wyniki pojawiają się przynajmniej raz wśród biletów; niektóre wyniki mogą pojawić się na wielu biletach.

Zamiast faktycznie przeprowadzać eksperyment, wyobrażamy sobie dokładnie - ale na ślepo - miksowanie wszystkich biletów i wybieranie tylko jednego. Jeśli możemy wykazać, że prawdziwy eksperyment powinien zachowywać się tak, jakby był przeprowadzony w ten sposób, to zredukowaliśmy potencjalnie skomplikowany (i kosztowny i długi) eksperyment w świecie rzeczywistym do prostego, intuicyjnego, myślowego eksperymentu (lub „modelu statystycznego” „). Klarowność i prostota, jaką zapewnia ten model, umożliwia analizę eksperymentu.

Przykład

Standardowe przykłady dotyczą wyników podrzucania monet i kości oraz losowania kart do gry. Są one nieco rozpraszające ze względu na ich trywialność, aby to zilustrować, przypuśćmy, że jesteśmy zaniepokojeni wynikiem wyborów prezydenckich w USA w 2016 r. Jako (niewielkie) uproszczenie założę, że jedna z dwóch głównych partii - republikańska (R) lub Demokratyczna (D) - wygra. Ponieważ (przy obecnie dostępnych informacjach) wynik jest niepewny, wyobrażamy sobie wkładanie biletów do pudełka: niektóre z napisem „R” na nich, a inne z „D”. Nasz model wyniku polega na wyciągnięciu dokładnie jednego biletu z tego pola.

Czegoś brakuje: nie ustaliliśmy jeszcze, ile biletów będzie na każdy wynik. W rzeczywistości znalezienie tego jest głównym problemem statystyki: w oparciu o obserwacje (i teorię), co można powiedzieć o względnych proporcjach każdego wyniku w ramce?

(Mam nadzieję, że jasne jest, że proporcje każdego rodzaju biletu w polu określają jego właściwości, a nie rzeczywiste liczby każdego biletu. Proporcje są zdefiniowane - jak zwykle - jako liczba każdego rodzaju biletu podzielona przez całkowita liczba biletów. Na przykład pudełko z jednym biletem „D” i jednym biletem „R” zachowuje się dokładnie tak samo, jak pudełko z milionem biletów „D” i milionem biletów „R”, ponieważ w każdym przypadku każdy typ jest 50% wszystkich biletów, a zatem każdy ma 50% szans na wylosowanie, gdy bilety zostaną dokładnie wymieszane).

Wykonanie modelu ilościowego

Ale nie zajmujmy się tym pytaniem tutaj, ponieważ jesteśmy blisko celu, jakim jest zdefiniowanie zmiennej losowej. Problem z modelem do tej pory polega na tym, że nie jest on kwantyfikowalny, podczas gdy chcielibyśmy móc za jego pomocą odpowiedzieć na pytania ilościowe. Nie mam też na myśli trywialnych, ale prawdziwe, praktyczne pytania, takie jak: „jeśli moja firma zainwestuje miliard euro w rozwój morskich paliw kopalnych w Stanach Zjednoczonych, to ile zmieni się wartość tej inwestycji w wyniku wyborów w 2016 r. ? W tym przypadku model jest tak prosty, że niewiele możemy zrobić, aby uzyskać realistyczną odpowiedź na to pytanie, ale możemy posunąć się tak daleko, aby skonsultować się z pracownikami ekonomicznymi i poprosić o ich opinie na temat dwóch możliwych wyników:

  1. Jeśli demokraci wygrają, ile zmieni inwestycja? (Załóżmy, że odpowiedź to dolarów).d

  2. Jeśli republikanie wygrają, ile to zmieni? (Załóżmy, że odpowiedź to dolarów.)r

Odpowiedzi są liczbami. Aby użyć ich w modelu, poproszę moich pracowników o przejrzenie wszystkich biletów w pudełku i na każdym bilecie „D”, aby napisać „ dolarów” i na każdym bilecie „R”, aby napisać „ dolarów”. Teraz możemy jasno i ilościowo modelować niepewność inwestycji: zmiana wartości po wyborach jest taka sama, jak w przypadku otrzymania kwoty pieniędzy zapisanej na pojedynczym losowaniu losowo z tego pola.dr

Ten model pomaga nam odpowiedzieć na dodatkowe pytania dotyczące inwestycji. Na przykład, jak niepewni powinniśmy być co do wartości inwestycji ? Chociaż istnieją (proste) formuły matematyczne dla tej niepewności, moglibyśmy odtworzyć ich odpowiedzi dość rozsądnie, po prostu używając naszego modelu wielokrotnie - może tysiąc razy - aby zobaczyć, jakie wyniki faktycznie się zdarzają i mierzyć ich rozprzestrzenianie. Model biletów w pudełku daje nam sposób na ilościowe uzasadnienie niepewnych wyników.

Zmienne losowe

Aby uzyskać odpowiedzi ilościowe dotyczące zjawisk niepewnych lub zmiennych, możemy przyjąć model biletu w pudełku i zapisywać liczby na biletach. Ten proces pisania liczb musi być zgodny tylko z jedną zasadą: musi być spójny. W tym przykładzie na każdym bilecie demokratycznym musi być napisane „ dolarów” - bez wyjątków - a na każdym bilecie republikańskim musi być napisane „ dolarów”.dr

Zmienna losowa jest jakikolwiek spójny sposób pisać numery na bilety w pudełku.

(Matematyczna notacja tego polega na nadaniu nazwy procesowi numeracji, zwykle wielkimi literami łacińskimi, takimi jak lubXYωXωX(ω)XX(D)=dX(R)=rXXX

X

X


Następnie: o mierzalności

Gdy definicji zmiennej losowej towarzyszy zastrzeżenie „mierzalne”, to, co ma na myśli podmiot definiujący, to uogólnienie modelu biletów w pudełku na sytuacje o nieskończenie wielu możliwych wynikach. (Technicznie jest to potrzebne tylko uncountably nieskończonych efektów lub gdzie irracjonalne są zaangażowane prawdopodobieństwa, a nawet w tym ostatnim przypadku można uniknąć.) Z nieskończenie wielu wyników trudno jest powiedzieć, jaka część z całości będzie. Jeśli istnieje nieskończenie wiele biletów „D” i nieskończenie wiele biletów „R”, jakie są ich względne proporcje? Nie możemy się dowiedzieć, dzieląc jedną nieskończoność przez drugą!

W takich przypadkach potrzebujemy innego sposobu określenia proporcji. „Wymiernym” zestawem biletów jest każda kolekcja biletów w polu, dla której można określić ich proporcję. Kiedy to nastąpi, liczbę, o której myśleliśmy jako „proporcję”, nazywa się „prawdopodobieństwem”. (Nie każda kolekcja biletów musi mieć z tym związane prawdopodobieństwo).

XX(ω)abab

Whuber
źródło
7
Dla tych, którzy wcześniej nie znali zmiennych losowych lub modeli biletów w pudełku, krótki interaktywny samouczek na mojej stronie internetowej pod adresem quantdec.com/envstats/notes/class_06/tutorial.htm zawiera ćwiczenia i kilka dodatkowych koncepcji.
whuber
2
Sprawdzony przykład ilustrujący te pojęcia znajduje się na stronie stats.stackexchange.com/a/68782 .
whuber
2
NB Podejrzewam, że wiele osób używa w przybliżeniu terminu „populacja” w znaczeniu biletów w pudełku. Unikam tej terminologii, ponieważ brzmi to tak, jakbyśmy mogli stworzyć modele prawdopodobieństwa tylko do próbkowania rzeczywistych (fizycznych) populacji. Nawet gdy pobierana jest populacja fizyczna, rzadko zdarza się, aby istniała idealna korespondencja jeden do jednego między nią a biletami. Na przykład nikt nigdy nie będzie w stanie wymienić Chińczyków żyjących 1 stycznia 2014 r., Częściowo z powodu niepewności co do tego, kiedy ludzie się rodzą, kiedy umierają, a nawet czy są Chińczykami.
whuber
4
@jsk Wprowadzenie do tej odpowiedzi wyjaśnia, dlaczego taka opieka wydawała się konieczna. Chociaż prawdą jest, że dwie inne odpowiedzi w tym wątku zawierają poprawną i kompletną definicję („mierzalną funkcję z przestrzeni prawdopodobieństwa do mierzalnej przestrzeni zwanej przestrzenią stanu”), definicja ta domyślnie wymaga zrozumienia wstępnych informacji o algebrach sigma, miarach prawdopodobieństwa, i mierzalne funkcje. Czytelnicy będą narzekać na „to, co jest na poziomie magisterskim” .
whuber
4
@ user4205580 W przypadku definicji czysto matematycznej „spójność” wcale nie jest konieczna, ponieważ dla matematyka zmienna losowa jest po prostu „podana”. W przypadku zastosowań statystycznych, jak omówiono tutaj, jest to ważny warunek, ponieważ wiele danych nie jest liczbowych: zmienne losowe muszą być konstruowane w sposób odpowiedni dla modelu i celów analitycznych. Możesz sam zdecydować, czy to rozróżnienie pojęciowe ma dla ciebie jakąś wartość.
whuber
16

Nieformalnie zmienna losowa jest sposobem przypisania kodu numerycznego do każdego możliwego wyniku. *

Przykład 1

{H,T}

XX(H)=1X(T)=010

Przykład 2

{A,K,,2,A,K,,2,A,K,,2,A,K,,2}.

W brydżu as jest wart 4 wysokie punkty, król 3, królowa 2 i walet 1. Każda inna karta jest warta 0 punktów.

YY(A)=4Y(J)=1Y(7)=0


HTA

* Formalnie zmienna losowa jest funkcją, która odwzorowuje każdy wynik (w przestrzeni próbki) na liczbę rzeczywistą.

Kenny LJ
źródło
5
+1. Ta odpowiedź trafia do sedna, jest poprawna i jasna - dzięki temu unika się bzdur na temat „nieznanych” i „zmieniających się” wartości, które przenikają inne odpowiedzi w tym wątku.
whuber
12

W przeciwieństwie do zmiennej zwykłej, zmienna losowa nie może być zastąpiona jedną niezmienną wartością. Raczej właściwości statystyczne , takie jak dystrybucja zmiennej losowej może być inaczej. Rozkład jest funkcją, która zapewnia prawdopodobieństwo, że zmienna przyjmie daną wartość lub mieści się w zakresie, biorąc pod uwagę pewne parametry, takie jak średnia lub odchylenie standardowe.

Zmienne losowe można klasyfikować jako dyskretne, jeśli rozkład opisuje wartości z zestawu policzalnego, takie jak liczby całkowite. Druga klasyfikacja zmiennej losowej jest ciągła i jest stosowana, jeśli rozkład obejmuje wartości z niepoliczalnego zbioru, takiego jak liczby rzeczywiste.

Sharpie
źródło
2
Prawdopodobnie najlepiej nie używać tutaj terminu „normalna zmienna”, jeśli nie masz na myśli normalnie rozmieszczonej zmiennej losowej.
Rob Hyndman,
Zgoda. Chociaż osobiście patrzyłbym na kogoś śmiesznego przez kilka sekund, gdyby powiedział „normalna zmienna” i nie wrzucił gdzieś słowa „losowy” lub „rozprowadzony”, żeby wskazać mi, że o tym właśnie rozmawiają. Ale jestem także inżynierem, a nie statystykiem, więc nie używam zbyt wielu notacji specyficznych dla domeny.
Sharpie
7
Zmienne losowe mogą być klasyfikowane jako dyskretne, jeśli nie zwracają na siebie uwagi. Jeśli są one tylko policzalne, mówimy dyskretnie: - P Masz również na myśli przepisywanie zamiast zakazywanie, ale myślę, że opis może być bardziej odpowiedni. W każdym razie fajna odpowiedź - mam nadzieję, że +1 pomoże złagodzić problem!
walkytalky,
@walkytalky Dzięki za poprawki- Wprowadziłem kilka poprawek.
Sharpie
1
Każda zmienna jest symbolem zastępczym dla wartości. Możesz przypisać tę lub inną wartość do zmiennej (czasem zestaw wartości, które możesz przypisać, jest ograniczony zestawem, zwanym typem ). Zmienne, które zachowują jedną niezmienną wartość, są znane jako „stałe”. Może chciałbyś powiedzieć, że zmienna losowa zachowuje znaną wartość, podczas gdy wartość zmiennej losowej jest nieznana? Jest to sprzeczne z innymi odpowiedziami, które mówią, że zmienna losowa wcale nie jest zmienną - jest to funkcja, która (deterministycznie) odwzorowuje nieznany stan na coś innego. Mówią, że nie jest losowy i nie jest zmienną.
Val
6

Powiedziano mi tę historię:

Zmienną losową można porównać ze świętym imperium rzymskim: Święte imperium rzymskie nie było święte, nie było rzymskie i nie było imperium.

W ten sam sposób zmienna losowa nie jest ani losowa, ani zmienna. To tylko funkcja. (historia została opowiedziana tutaj: źródło ).

To przynajmniej dziwaczny sposób na wyjaśnienie, który może pomóc ludziom zapamiętać!

kjetil b halvorsen
źródło
3

Z Wikipedii :

W matematyce (zwłaszcza teorii prawdopodobieństwa i statystyce) zmienna losowa (lub zmienna stochastyczna) jest (ogólnie) mierzalną funkcją, która odwzorowuje przestrzeń prawdopodobieństwa na przestrzeń mierzalną. Zmienne losowe odwzorowujące wszystkie możliwe wyniki zdarzenia na liczby rzeczywiste są często badane w statystyce elementarnej i wykorzystywane w naukach do przewidywania na podstawie danych uzyskanych z eksperymentów naukowych. Oprócz zastosowań naukowych opracowano zmienne losowe do analizy gier losowych i zdarzeń stochastycznych. Użyteczność zmiennych losowych wynika z ich zdolności do przechwytywania tylko matematycznych właściwości niezbędnych do odpowiedzi na pytania probabilistyczne.

Od cnx.org :

Zmienna losowa jest funkcją, która przypisuje unikalne wartości liczbowe do wszystkich możliwych wyników losowego eksperymentu w ustalonych warunkach. Zmienna losowa nie jest zmienną, ale raczej funkcją, która odwzorowuje zdarzenia na liczby.

Mehper C. Palavuzlar
źródło
4
Żadna z definicji cnx.org nie jest poprawna: pierwsza z powodu niejasnego - i być może wprowadzającego w błąd - użycia „niepowtarzalnych” i „ustalonych warunków”, a druga z tego, że jest po prostu błędna; RV jest definiowana na podstawie wyników (elementy przestrzeni próbki), a nie zdarzeń (mierzalne zestawy wyników).
whuber
P=κλeλtκ=0P(t)dtED(t)=λeλtED(t)
1
f(x)
3

Zmienna losowa, zwykle oznaczona jako X, jest zmienną, w której wynik jest niepewny. Obserwacja konkretnego wyniku tej zmiennej nazywana jest realizacją. Mówiąc dokładniej, jest to funkcja, która odwzorowuje przestrzeń prawdopodobieństwa na przestrzeń mierzalną, zwykle nazywaną przestrzenią stanu. Zmienne losowe są dyskretne (mogą przyjmować wiele różnych wartości) lub ciągłe (mogą przyjmować nieskończoną liczbę wartości).

Rozważ zmienną losową X, która jest sumą uzyskaną przy rzucie dwiema kostkami. Może przyjmować dowolną z wartości 2-12 (z jednakowym prawdopodobieństwem, biorąc pod uwagę uczciwe kości), a wynik jest niepewny, dopóki kości nie zostaną rzucone.

Graham Cookson
źródło
5
To tylko myśl, ale brzmi to tak, jakbyś powiedział, że prawdopodobieństwo rzucenia 12 (1/36) jest takie samo jak 7 (1/6).
jefflovejapan
0

W moich niematematowych badaniach uniwersyteckich powiedziano nam, że zmienna losowa jest mapą od wartości, które zmienna może przyjmować do prawdopodobieństw. Pozwoliło to na narysowanie rozkładów prawdopodobieństwa

http://mathbits.com/MathBits/TISection/Statistics2/normaldistribution.htm

Niedawno zdałem sobie sprawę, jak różni się to od matematyków. Okazuje się, że przez zmienną losową mają na myśli prostą funkcję X: Ω → R, która pobiera element przestrzeni próbki Ω ( inaczej wynik, bilet lub indywidualny , jak wyjaśniono powyżej) i tłumaczy go na liczbę rzeczywistą R z zakresu ( -∞, ∞). Oznacza to, że trafnie zauważono powyżej, że nie jest losowy i nie ma żadnej zmiennej. Losowość zwykle pochodzi z miary prawdopodobieństwa P, jako części przestrzeni miary (Ω, P). P odwzorowuje próbki na R, podobnie jak zmienna losowa, ale ten zakres czasowy jest ograniczony do [0,1] i możemy powiedzieć, że zmienna losowa tłumaczy (Ω, P) na (R, P), a zatem zmienna losowa jest wyposażona w prawdopodobieństwo zmierz P: R -> [0,1], abyś mógł powiedzieć dla każdego xw R, jakie jest prawdopodobieństwo jego wystąpienia.

Ω

H(Ω)=P(Ωi)ln(Ωi)

całka nie potrzebuje żadnych rzeczywistych wartości zmiennej losowej.

Val
źródło
XAσA