Jaki jest najczystszy i najłatwiejszy sposób wyjaśnić komuś pojęcie wariancji? Co to intuicyjnie znaczy? Jeśli ktoś ma to wytłumaczyć swojemu dziecku, jak by to zrobić?
Jest to koncepcja, z którą trudno mi się wyrazić - szczególnie w przypadku powiązania wariancji z ryzykiem. Rozumiem to matematycznie i tak też mogę to wyjaśnić. Ale wyjaśniając zjawiska w świecie rzeczywistym, jak sprawić, by ktoś zrozumiał wariancję i że można ją zastosować w „prawdziwym świecie”, że tak powiem.
Powiedzmy, że symulujemy inwestycję w akcje przy użyciu liczb losowych (rzut kostką lub arkusz Excela, nie ma znaczenia). Otrzymujemy pewien „zwrot z inwestycji” poprzez powiązanie każdego wystąpienia zmiennej losowej z „pewną zmianą” zwrotu. Na przykład.:
Rzut 1 oznacza zmianę o 0,8 na 1 USD w inwestycji, 5 oznacza zmianę o 1,1 na 1 USD i tak dalej.
Teraz, jeśli ta symulacja zostanie uruchomiona około 50 razy (lub 20 lub 100), otrzymamy pewne wartości i końcową wartość inwestycji. Co właściwie mówi nam „wariancja”, jeśli mamy ją obliczyć z powyższego zestawu danych? Co „widzisz” - jeśli wariancja okaże się 1,7654 lub 0,88765 lub 5,2342, co to w ogóle oznacza? Co / co mogę zaobserwować na temat tej inwestycji? Jakie wnioski mogę wyciągnąć - w kategoriach laików.
Prosimy o uzupełnienie tego pytania również o odchylenie standardowe! Chociaż uważam, że „łatwiej” to zrozumieć, ale coś, co przyczyniłoby się do uczynienia go również „intuicyjnie” zrozumiałym, byłoby bardzo mile widziane!
Odpowiedzi:
Prawdopodobnie użyłbym podobnej analogii do tej, której nauczyłem się dawać „świeckim”, wprowadzając pojęcie uprzedzeń i wariancji: analogię do rzutek. Patrz poniżej:
Powyższy szczególny obraz pochodzi z Encyklopedii uczenia maszynowego , a odnośnikiem do obrazu jest „Wprowadzenie do praktyki statystycznej” autorstwa Moore'a i McCabe'a .
EDYTOWAĆ:
Oto ćwiczenie, które moim zdaniem jest dość intuicyjne: wyjmij talię kart (z pudełka) i upuść talię z wysokości około 1 stopy. Poproś dziecko, aby podniosło karty i zwróciło je tobie. Następnie, zamiast upuszczać talię, podrzucaj ją tak wysoko, jak to możliwe, i pozwól kartom upaść na ziemię. Poproś dziecko, aby podniosło karty i zwróciło je tobie.
Relatywna zabawa, jaką mają podczas dwóch prób, powinna dać im intuicyjne wyczucie wariancji :)
źródło
Żartowałem u laika statystyki przez żarty i odkryłem, że dużo się uczą.
Załóżmy, że dla wariancji lub odchylenia standardowego przydatny jest następujący dowcip:
Żart
Raz dwóch statystyk o wysokości 4 stóp i 5 stóp musi przekroczyć rzekę ŚREDNIEJ głębokości 3 stóp. Tymczasem przychodzi trzeci statystyk i powiedział: „na co czekasz? Możesz łatwo przepłynąć rzekę”
Zakładam, że laik wie o „przeciętnym” terminie. Możesz również zadać im to samo pytanie, które w tej sytuacji przekroczyliby rzekę?
Czego im brakuje, a mianowicie „wariancji”, która decyduje „co robić w tej sytuacji?”
Chodzi o twoje umiejętności prezentacji. Jednak żarty bardzo pomagają laikowi, który chce zrozumieć statystyki. Mam nadzieję, że to pomoże!
źródło
Skoncentrowałbym się raczej na odchyleniu standardowym niż na wariancji; wariancja ma niewłaściwą skalę.
Podobnie jak średnia jest wartością typową, SD jest typową (absolutną) różnicą od średniej. Nie inaczej jest z rozkładaniem rozkładu na średnią i przyjmowaniem średniej z tego.
źródło
Nie zgadzam się z wieloma odpowiedziami, które zachęcają ludzi do czystego myślenia o wariancji jako rozprzestrzenianiu się. Jak zauważyli inteligentni ludzie (Nassim Taleb), kiedy ludzie myślą o wariancji jako rozprzestrzenianiu się, po prostu zakładają, że jest to MAD.
Wariancja jest opisem odległości członków od średniej ORAZ ocenia znaczenie każdej obserwacji na podstawie tej samej odległości. Oznacza to, że obserwacje odległe są ważniejsze. Stąd kwadraty.
Myślę, że najłatwiej jest wyobrazić sobie wariancję ciągłej zmiennej jednolitej. Każda obserwacja może mieć narysowany kwadrat. Układanie tych kwadratów tworzy piramidę. Przeciąć piramidę na pół, aby połowa ciężaru była z jednej strony, a połowa z drugiej. Twarzą, w której ją wycinasz, jest wariancja.
źródło
Może to może pomóc. Z góry przepraszam, że jako kompletny amator mogę się mylić.
Wyobraź sobie, że poprosiłeś 1000 osób, aby poprawnie zgadły, ile fasoli znajduje się w słoiku wypełnionym żelkami. Teraz wyobraź sobie, że niekoniecznie jesteś zainteresowany znajomością poprawnej odpowiedzi (która może się przydać), ale chcesz lepiej zrozumieć, jak ludzie oceniają odpowiedź.
Rozbieżność można wyjaśnić laikowi jako rozprzestrzenianie się różnych odpowiedzi (od najwyższej do najniższej). Możesz kontynuować, dodając, że jeśli wystarczająca liczba osób zostanie przesłuchana, poprawna odpowiedź powinna leżeć gdzieś pośrodku podanej liczby „zaproszonych gości”.
Odsyłam teraz do moich bardziej cenionych kolegów w celu wydania orzeczenia
źródło
Usiadłem, próbując rozwiązać zagadkę, a tym, co w końcu sprawiło, że kliknęło na swoje miejsce, było spojrzenie na nią graficznie.
Załóżmy, że narysujesz linię liczbową z czterema punktami, -7, -1, 1 i 7. Teraz narysuj wyimaginowaną oś Y z tymi samymi czterema punktami wzdłuż wymiaru Y i użyj par XY, aby narysować kwadrat dla każdej pary punktów. Skończysz z czterema oddzielnymi kwadratami składającymi się z 49, 1, 1 i 49 mniejszych kwadratów, każdy. Każdy z nich przyczynia się do ogólnej sumy kwadratów, które same w sobie mogą być reprezentowane jako duży kwadrat 10 x 10 ze 100 mniejszymi kwadratami ogółem.
Rozbieżność jest wielkością średniego kwadratu przyczyniającego się do tego większego kwadratu. 49 + 1 + 49 + 1 = 100, 100/4 = 25. Tak więc 25 byłoby wariancją. Odchylenie standardowe będzie równe długości jednego z boków tego przeciętnego kwadratu lub 5.
Oczywiście ta analogia nie obejmuje pełnego niuansu pojęcia wariancji. Jest wiele rzeczy, które wymagają wyjaśnienia, na przykład dlaczego często używamy mianownika n-1 do oszacowania parametru populacji, zamiast po prostu używać n. Ale jako podstawowa koncepcja polegająca na ustaleniu reszty szczegółowego zrozumienia wariancji, po prostu wyciągnięcie jej, aby zobaczyć, jak ogromnie to pomogło. Pomaga zrozumieć, co mamy na myśli, gdy mówimy, że wariancja jest średnim kwadratowym odchyleniem od średniej. Pomaga także zrozumieć, jaki stosunek SD ma do tej średniej.
źródło
Miej dużo praktyki, nauczając laików o standardowym odchyleniu i wariancji.
TL; DR; Jest to coś w rodzaju średniej odległości od średniej. (co jest nieco mylące i mylące w tak zwięzłej wersji. Więc przeczytaj cały artykuł)
Zakładam, że laik wie o średniej. Mówię o znaczeniu znajomości SD i szacowania błędów (patrz PS poniżej). Potem obiecuję, że nie wykorzystamy wiedzy z matematyki ani statystyk świętych - tylko suche rozumowanie i czysta logika.
Problem. Powiedzmy, że mamy termometr (wybieram urządzenie pomiarowe w zależności od tego, co jest bliżej słuchu).
Wykonaliśmy pomiary N tej samej temperatury, a termometr pokazał nam coś w rodzaju 36,5, 35,9, 37,0, 36,6, ... (patrz rysunek). Wiemy, że rzeczywista temperatura była taka sama, ale termometr leży nam nieco przy każdym pomiarze.
Jak możemy oszacować, ile okłamuje nas ta mała szumowina?
Możemy obliczyć średnią (patrz czerwona linia na zdjęciu poniżej). Czy możemy w to uwierzyć? Czy nawet po uśrednieniu ma wystarczającą precyzję dla naszych potrzeb?
Najłatwiejsze podejście . Możemy wziąć najdalszy punkt, obliczyć odległość między nim a średnią (czerwona linia) i powiedzieć, że tak właśnie leży termometr, ponieważ widzimy maksymalny błąd. Można się domyślić, że nie jest to najlepsza ocena. Jeśli spojrzymy na zdjęcie, większość punktów jest zbliżona do średniej, jak możemy zdecydować tylko o jednym punkcie? W rzeczywistości można przećwiczyć numerację powodów, dla których takie oszacowanie jest szorstkie i zwykle złe.
Wariancji . Następnie ... weźmy wszystkie odległości i obliczmy średni dystans !
Wtedy można sobie wyobrazić, że formuła średniej odległości będzie sumowała wszystko i dzieliła przez N:
Ale jest problem. Możemy łatwo zobaczyć np. że 36,4 i 36,8 są w tej samej odległości od 36,6. ale jeśli wstawimy wartości do powyższego wzoru, otrzymamy -0,2 i +0,2, a ich suma wynosi 0, co nie jest tym, czego chcemy.
Jak pozbyć się znaku? (W tym momencie laicy zazwyczaj mówią „Weź wartość bezwzględną” i uzyskaj sugestię, że „przyjęcie wartości bezwzględnej jest trochę sztuczne, jaki jest inny sposób?”). Możemy obliczyć wartości! Następnie formuła staje się:
Ta formuła nazywa się w statystykach „wariancją”. I znacznie lepiej jest oszacować rozrzut wartości naszego termometru (lub cokolwiek innego), niż biorąc tylko maksymalną odległość.
Odchylenie standardowe . Ale wciąż jest jeszcze jeden problem. Spójrz na formułę wariancji. Kwadraty sprawiają, że nasze jednostki miary są ... kwadratowe. Jeśli termometr mierzy temperaturę w ° C (lub ° F), wówczas nasze oszacowanie błędu jest mierzone w (lub ). Jak zneutralizować kwadraty? - Użyj pierwiastka kwadratowego! ° F 2°C2 °F2
Tak więc dochodzimy do wzoru odchylenia standardowego, który jest powszechnie oznaczany jako . I to jest lepszy sposób na oszacowanie naszej precyzji urządzenia.σ
W tym momencie laik rozumie całkiem dobrze, jak się tu dostaliśmy i jak działa odchylenie standardowe / wariancja. Od tego momentu zwykle przechodzę do reguły 68–95–99,7, opisując także próbkowanie i populację, błąd standardowy vs standardowe odchylenie itd.
PS Znaczenie znajomości przykładu rozmowy SD:
Powiedzmy, że masz jakieś urządzenie pomiarowe, które kosztowało 1 000 000 $ . I daje odpowiedź: 42. Czy myślisz, że ktoś zapłacił 1 000 000 $ za 42? Phooey! Jeden zapłacił 1000 000 za precyzję tej odpowiedzi. Ponieważ wartość - nic nie kosztuje bez znajomości jej błędu. Płacisz za błąd, a nie za wartość. Oto dobry przykład życia.
We wspólnym życiu najczęściej używamy linijki do pomiaru odległości. Linijka zapewnia precyzję około jednego milimetra (jeśli nie jesteś w USA). Co jeśli musisz przekroczyć milimetr i zmierzyć coś z dokładnością do 0,1 mm? - Prawdopodobnie użyłbyś suwmiarki. Teraz łatwo sprawdzić, czy najtańsza linijka (ale wciąż z milimetrową precyzją) kosztuje centy, a dobra suwmiarka kosztuje dziesiątą część dolarów. 2 wielkości ceny za 1 wielkość precyzji. I to bardzo często, ile płacisz za błąd.
źródło
Myślę, że kluczowym zwrotem używanym przy wyjaśnianiu zarówno wariancji, jak i odchylenia standardowego jest „miara rozprzestrzeniania się” . W najbardziej podstawowym języku wariancja i odchylenie standardowe mówią nam, jak dobrze rozłożone są dane. Aby być nieco bardziej dokładnym, chociaż wciąż zwracają się do laika, mówią nam, jak dobrze dane są rozłożone wokół średniej. Na marginesie, zauważ, że średnia jest „miarą lokalizacji” . Aby zakończyć wyjaśnienie dla laika, należy podkreślić, że odchylenie standardowe jest wyrażone w tych samych jednostkach, co dane, z którymi pracujemy, i z tego powodu przyjmujemy pierwiastek kwadratowy wariancji. tzn. oba są ze sobą powiązane.
Myślę, że to krótkie wyjaśnienie wystarczy. W każdym razie jest to prawdopodobnie trochę podobne do wstępnego wyjaśnienia podręcznika.
źródło
Uważam wariancję rozkładu za moment bezwładności względem osi, który w środku rozkładu i każdej masy jest równy 1. Ta intuicja ukonkretniałaby abstrakcyjne pojęcie.
Pierwszy moment to średnia rozkładu, a drugi moment to wariancja.
Odniesienie: Pierwszy kurs prawdopodobieństwa 8. edycja
źródło
Nazwałbym to średnią pozytywną różnicą od ogólnej średniej.
źródło