Kiedy nie mogę zastąpić zmiennej losowej jej średnią?

10

Częstym uproszczeniem w modelowaniu i symulacji jest zastąpienie zmiennej losowej jej wartością średnią.

Kiedy to uproszczenie doprowadziłoby do błędnego wniosku?

Ankit Goyal
źródło
2
Czy „Var” oznacza zmienną lub wariancję lub wartość zagrożoną ?
Henry
3
Byłoby fajnie założyć usługę, która płaci za subskrypcję Netflix swoich członków. Opłacilibyśmy tylko , gdziexjest losowo wybierany w dziedzinie[-100,100], więc wie, ya, wolne i straty! Później będziemy oferować niektórzy klienci opcję zamiast wynagrodzeniax2USD|x| US.remonthx[-100,100] . x2) US.remonth
Nat
3
W bardzo prostym przypadku, jeśli dojdziemy do skrajności, możemy stracić prawie wszystkie informacje, na których nam zależy. Rozważ regresję Y na X, gdzie zastąpiliśmy zarówno Y, jak i X ich średnią. Wszelkie informacje o zboczu zostały utracone.
Dason
1
Czy pytasz o zastąpienie brakujących wartości, czy pytasz o zastąpienie losowej zmiennej w określonym kontekście (np. Oparcie prognoz na modelu losowego efektu)?
IWS

Odpowiedzi:

20

Jeśli zastąpisz brakującą wartość jakimś oszacowaniem punktowym, zignorujesz całą jej zmienność. W ten sposób nie będziesz propagować całej oryginalnej zmienności do swojego modelu. Twoje oszacowania parametrów wydają się mieć zbyt niski . Jeśli wnioskujesz, twoje wartości p będą tendencyjnie niskie. Twoje będą zbyt wąskie. Jeśli wykonasz prognozę, Twoje s będą zbyt wąskie.

Ogólnie: będziesz zbyt pewny swoich wniosków.

Stephan Kolassa
źródło
2
Dobra odpowiedź! Pomyśl o tym: zmienna losowa ma rozkład. Można go obrócić w lewo, w prawo. Mogę być bimodalny itp. Zmniejszając zmienną do wartości średniej, usuwasz wszystkie te dodatkowe informacje (niepewność) i zastępujesz rozkład (przedziały) szacunkiem pojedynczego punktu.
elevendollar
1
Jeśli zastąpisz brakującą wartość jakimś oszacowaniem punktowym, zakładasz również, że brakuje danych losowo. Średnia wartość zmiennej losowej może nie być równa średniej wartości danych, gdy jej brakuje.
Neil G,
@NeilG przykro mi, że nitpick, ale zastąpienie brakującej wartości jej średnią nie oznacza bezpośrednio zakładania przypadkowego braku danych. Zwłaszcza, że ​​- nieco myląca - terminologia dotycząca brakujących danych uważa, że ​​„brakujące losowo” to dane, które losowo brakuje, zależne od innych, ale znanych danych ( en.wikipedia.org/wiki/Missing_data ). IMO sposób, w jaki dane są zastępowane, nie sugeruje nic o uzasadnieniu. To uzasadnienie powinno być jasno określone i prowadzić do właściwego sposobu postępowania z brakującymi danymi. To powiedziawszy, w pełni zgadzam się z odpowiedzią Stephana.
IWS
@IWS W porządku, aby wskaźniki braków były uzależnione od obserwowanych danych. Brakujące losowo oznacza, że ​​wskaźniki braków zależą od nieobserwowanych danych. Jeśli zamienisz zmienną na jej wartość średnią, pod warunkiem jej przestrzegania, może to nie być to samo, co jej bezwarunkowa wartość średnia - chyba że dane losowo zostaną pominięte.
Neil G
@NeilG Czy nie masz na myśli „zagubienia całkowicie przypadkowo”, kiedy piszesz „zagubiony losowo” w ostatnim zdaniu ostatniego komentarza? Jeśli tak, to zgadzamy się, ale po prostu gadałem o terminologii. (patrz strona wiki, którą zamieściłem w moim komentarzu powyżej, zawsze uczono mnie, czytałem i stosowałem tę terminologię)
IWS
13

Oprócz punktów Stephana:

  • W prawie każdej aplikacji, w której interesują Cię nieliniowe funkcje zmiennej losowej, podstawienie średniej spowoduje ogólnie błąd systematyczny i być może sprzeczne wyniki. Średnia prędkość i średnia masa cząstki na ogół nie będą zgodne ze średnią energią kinetyczną, ponieważ energia jest skalowana z V ^ 2.
  • Średnia wartość może nawet nie być możliwym wynikiem dla zmiennej losowej. Jeśli moje możliwe wyniki to 0 „umiera pacjent” i 1 „pacjent żyje”, prawdopodobnie nie jest pomocne posiadanie modelu opisującego pacjenta jako 0,1 „głównie martwego, ale nieco żywego”.
Geoffrey Brent
źródło
1
Obowiązkowe: youtube.com/watch?v=xbE8E1ez97M
Alexis
1
@Alexis, ale oczywiście!
Geoffrey Brent,
0

Przykład z życia (związany z dwiema otrzymanymi odpowiedziami) na rynkach finansowych. Cena opcji opiera się na prawdopodobieństwie, że cena składnika aktywów przekroczy (lub poniżej) dany poziom.

Na przykład cena opcji zakupu składnika aktywów po cenie 100, gdy oczekiwana wartość składnika aktywów wynosi 80. Jeśli podstawisz zmienną losową (cenę składnika aktywów), otrzymasz cenę zero (jako nigdy nie miałbyś wartości 100, która kosztuje 80). Gdy weźmiesz pod uwagę stochastyczność zasobu (i jest to właściwy sposób na zrobienie tego), otrzymasz cenę dodatnią, ponieważ istnieje pewne prawdopodobieństwo, że cena aktywów przekroczy 100.

Juan Ignacio Gil
źródło