Jaka jest różnica między prawdopodobieństwem a statystykami i dlaczego są one badane razem?
116
Jaka jest różnica między prawdopodobieństwem a statystykami i dlaczego są one badane razem?
Krótka odpowiedź na to pytanie, którą usłyszałem od Persi Diaconis, brzmi następująco: problemy rozważane przez prawdopodobieństwo i statystyki są odwrotne względem siebie. W teorii prawdopodobieństwa bierzemy pod uwagę pewien proces leżący u podstaw losowości lub niepewności modelowany przez zmienne losowe i ustalamy, co się stanie. W statystykach obserwujemy coś, co się wydarzyło, i próbujemy dowiedzieć się, jaki proces leżący u podstaw wyjaśniłby te obserwacje.
Podoba mi się przykład słoika z czerwonymi i zielonymi żelkami.
Probabilista zaczyna od znajomości każdego z nich i pyta o prawdopodobieństwo narysowania czerwonej żelki. Statystyk ustala proporcje czerwonych żelków, pobierając próbki ze słoika.
źródło
Mówienie, że statystyka jest po prostu odwrotnością prawdopodobieństwa, jest mylące. Tak, pytania statystyczne są pytaniami o odwrotnym prawdopodobieństwie, ale są źle przedstawionymi odwrotnymi problemami , co stanowi dużą różnicę pod względem sposobu ich rozwiązania.
Prawdopodobieństwo jest dziedziną czystej matematyki - pytania dotyczące prawdopodobieństwa można stawiać i rozwiązywać za pomocą rozumowania aksjomatycznego, dlatego też na każde pytanie dotyczące prawdopodobieństwa istnieje jedna poprawna odpowiedź.
Pytania statystyczne można przekształcić w pytania prawdopodobieństwa za pomocą modeli prawdopodobieństwa . Po przyjęciu pewnych założeń dotyczących mechanizmu generującego dane możemy odpowiedzieć na pytania statystyczne za pomocą teorii prawdopodobieństwa. JEDNAK, prawidłowe sformułowanie i sprawdzenie tych modeli prawdopodobieństwa jest równie ważne, a nawet ważniejsze, niż późniejsza analiza problemu przy użyciu tych modeli.
Można powiedzieć, że statystyki składają się z dwóch części. Pierwsza część to pytanie, jak sformułować i ocenić modele probabilistyczne dla problemu; przedsięwzięcie to należy do dziedziny „filozofii nauki”. Druga część to pytanie o uzyskanie odpowiedzi po założeniu określonego modelu. Ta część statystyki jest rzeczywiście kwestią stosowanej teorii prawdopodobieństwa, aw praktyce zawiera również sporo analiz numerycznych.
Zobacz: http://bactra.org/reviews/error/
źródło
Podoba mi się to z Calculated Bets Steve'a Skienny (patrz link do pełnej dyskusji):
źródło
Prawdopodobieństwo to czysta nauka (matematyka), statystyki dotyczą danych. Są one powiązane, ponieważ prawdopodobieństwo stanowi pewnego rodzaju podstawę dla statystyki, dostarczając podstawowych pomysłów.
źródło
Tabela 3.1 Intuicyjnej biostatystyki odpowiada na to pytanie za pomocą diagramu pokazanego poniżej. Zauważ, że wszystkie strzałki wskazują na prawdopodobieństwo dla prawdopodobieństwa, a na lewo dla statystyk.
PRAWDOPODOBIEŃSTWO
STATYSTYKA
źródło
Prawdopodobieństwo odpowiada na pytania o to , co się stanie, statystyki odpowiadają na pytania o to, co się stało.
źródło
Prawdopodobieństwo polega na kwantyfikacji niepewności, podczas gdy statystyki wyjaśniają zmienność niektórych miar zainteresowania (np. Dlaczego zmieniają się poziomy dochodów?), Które obserwujemy w świecie rzeczywistym.
Wyjaśniamy tę zmienność, stosując pewne obserwowalne czynniki (np. Płeć, poziom wykształcenia, wiek itp. Dla przykładu dochodu). Ponieważ jednak nie jesteśmy w stanie uwzględnić wszystkich możliwych czynników wpływających na dochód, wszelkie niewyjaśnione warianty pozostawiamy przypadkowym błędom (czyli tam, gdzie pojawia się niepewność ilościowa).
Ponieważ przypisujemy „Wariacja = wpływ obserwowalnych czynników + efekt błędów losowych”, potrzebujemy narzędzi zapewnionych przez prawdopodobieństwo, aby uwzględnić wpływ błędów losowych na obserwowaną zmienność.
Oto kilka przykładów:
Kwantyfikacja niepewności
Przykład 1: Rzucisz 6-stronną kostką. Jakie jest prawdopodobieństwo uzyskania 1?
Przykład 2: Jakie jest prawdopodobieństwo, że roczny dochód osoby dorosłej wybranej losowo ze Stanów Zjednoczonych jest mniejszy niż 40 000 USD?
Wyjaśnienie wariantu
Przykład 1: Obserwujemy, że roczny dochód osoby jest różny. Jakie czynniki wyjaśniają zróżnicowanie dochodów osoby?
Oczywiście nie możemy uwzględnić wszystkich czynników. W ten sposób przypisujemy dochód danej osobie do niektórych obserwowalnych czynników (np. Poziom wykształcenia, płeć, wiek itp.), A wszelkie pozostałe warianty pozostawiamy niepewności (lub w języku statystyki: przypadkowym błędom).
Przykład 2: Zauważamy, że niektórzy konsumenci wybierają Tide przez większość czasu, gdy kupują detergent, podczas gdy inni konsumenci wybierają detergent marki xyz. Co wyjaśnia zmienność wyboru? Przypisujemy zmienność wyborów do niektórych obserwowalnych czynników, takich jak cena, nazwa marki itp., A wszelkie niewyjaśnione warianty pozostawiamy przypadkowym błędom (lub niepewności).
źródło
Prawdopodobieństwo to objęcie niepewności, podczas gdy statystyka jest empirycznym, wygłodniałym dążeniem do prawdy (oczywiście wykluczeni przeklęci kłamcy).
źródło
Podobnie jak powiedział Mark, statystyka była historycznie nazywana odwrotnym prawdopodobieństwem , ponieważ statystyka próbuje wywnioskować przyczyny zdarzenia na podstawie obserwacji, podczas gdy prawdopodobieństwo jest odwrotnie.
źródło
Prawdopodobieństwo zdarzenia jest jego długim okresie względnej częstotliwości. Oznacza to w zasadzie , na przykład, szansę na uzyskanie „głowy” przy kolejnym rzucie monetą lub uzyskania „3” przy kolejnym rzucie kostką.
Statystyka jest każdy środek numeryczne obliczone z próbki populacji. Na przykład średnia próbki. Używamy tego jako statystyki, która szacuje średnią populacji, która jest parametrem. Zasadniczo daje to podsumowanie próbki.
źródło
Studia prawdopodobieństwa, cóż, jakie są prawdopodobne zdarzenia. Intuicyjnie wiesz, jakie jest prawdopodobieństwo.
Statystyki to badanie danych: pokazywanie ich (za pomocą narzędzi takich jak wykresy), podsumowywanie ich (za pomocą średnich i odchyleń standardowych itp.), Wyciąganie wniosków na temat świata, z którego te dane zostały narysowane (dopasowanie linii do danych itp.), Oraz - to jest kluczowe - określenie ilościowe, jak możemy być pewni naszych wniosków.
Aby oszacować, jak możemy być pewni naszych wniosków, musimy użyć prawdopodobieństwa. Załóżmy, że masz dane z zeszłego roku na temat opadów w regionie, w którym mieszkasz i w którym mieszkam. W zeszłym roku padało średnio 1/4 cala na tydzień, gdzie mieszkasz, i 3/8 cala, gdzie mieszkam. Możemy więc powiedzieć, że opady w moim regionie są średnio o 50% większe niż w miejscu zamieszkania, prawda? Nie tak szybko, Sparky. To może być zbieg okoliczności: może w zeszłym roku zdarzyło mi się dużo deszczu. Możemy użyć prawdopodobieństwa, aby oszacować stopień pewności siebie w naszym wniosku, że mój dom jest o 50% bardziej przemoczony niż twój.
Zasadniczo można więc powiedzieć, że prawdopodobieństwo jest matematycznym fundamentem teorii statystyki.
źródło
W teorii prawdopodobieństwa otrzymujemy zmienne losowe X1, X2, ... w jakiś sposób, a następnie badamy ich właściwości, tj. Obliczamy prawdopodobieństwo P {X1 \ w B1}, badamy zbieżność X1, X2, ... itd. .
W statystyce matematycznej podano n realizacji pewnej zmiennej losowej X i zbioru rozkładów D; problemem jest znalezienie wśród rozkładów z D jednego, który najprawdopodobniej wygeneruje zaobserwowane dane.
źródło
Prawdopodobnie rozkład jest znany i można go z góry poznać - zaczynasz od znanej funkcji rozkładu prawdopodobieństwa (lub podobnej) i próbujesz na jej podstawie.
W statystyce rozkład nie jest wcześniej znany. Może być nawet niepoznawalny. Założono hipotezę o rozkładzie prawdopodobieństwa za obserwowanymi danymi, aby móc zastosować teorię prawdopodobieństwa do tych danych, aby wiedzieć, czy hipotezę zerową o tych danych można odrzucić, czy nie.
Toczy się filozoficzna dyskusja na temat tego, czy w świecie rzeczywistym istnieje coś takiego jak prawdopodobieństwo, czy też jest to idealny wymysł naszej wyobraźni matematycznej, a wszystkie nasze obserwacje mogą być wyłącznie statystyczne.
źródło
Statystyka to dążenie do prawdy w obliczu niepewności. Prawdopodobieństwo to narzędzie, które pozwala nam oszacować niepewność.
(Podałem inną, dłuższą odpowiedź, która zakładała, że pytano o coś w stylu „jak wytłumaczysz to swojej babci?”)
źródło
Zastrzeżenie: powyższe są odpowiedziami matematycznymi. W rzeczywistości wiele statystyk dotyczy również projektowania / odkrywania odpowiednich modeli, kwestionowania istniejących modeli, projektowania eksperymentów, radzenia sobie z niedoskonałymi danymi itp. „Wszystkie modele są błędne”.
źródło
Prawdopodobieństwo : Biorąc pod uwagę znane parametry, znajdź prawdopodobieństwo zaobserwowania określonego zestawu danych.
Statystyka : biorąc pod uwagę określony zestaw obserwowanych danych, wnioskuj o tym, jakie mogą być parametry.
Statystyka jest „bardziej subiektywna” i „więcej sztuki niż nauki” (w odniesieniu do prawdopodobieństwa).
źródło
Różnica między prawdopodobieństwami a statystykami polega na tym, że w prawdopodobieństwach nie ma pomyłki. Jesteśmy pewni prawdopodobieństwa, ponieważ wiemy dokładnie, ile stron ma monetę lub ile niebieskich karmelków znajduje się w wazonie. Ale w statystykach badamy część populacji tego, co badamy, i na tej podstawie staramy się zobaczyć prawdę, ale zawsze istnieje procent błędnych wniosków. Jedyną rzeczą w statystyce, która jest prawdziwa, jest to błąd%, który w rzeczywistości jest prawdopodobieństwem.
źródło
https://en.wikipedia.org/wiki/Foundations_of_statistics
Zatem kwestia prawdopodobieństwa, że teoria prawdopodobieństwa jest podstawą statystyki, nie podlega dyskusji. Cała reszta to uczciwa gra.
Ale starając się być bardziej pomocny, praktyczny z odpowiedzią ...
https://en.wikipedia.org/wiki/Probability_and_statistics
Powyższe nie jest w żaden sposób wyczerpujące ani autorytatywne, ale uważam, że jest przydatne.
Zwykle pomogło mi to zobaczyć takie rzeczy jak ...
Każdy z nich jest intensywnie wykorzystywany średnio w fundamentach następnego. Oznacza to, że istnieją duże skrzyżowania w sposobie studiowania podstaw następnego.
PS. Istnieją statystyki indukcyjne i dedukcyjne, więc nie na tym polega różnica.
źródło
Wielu ludzi i matematyków twierdzi, że „STATYSTYKA jest odwrotnością PRAWDOPODOBIEŃSTWA”, ale nie jest szczególnie słuszna. Sposób podejścia lub metoda rozwiązania tych 2 są zupełnie inne, ale są POŁĄCZONE .
chciałbym odnieść się do mojego przyjaciela Johna D. Cooka .....
„Podoba mi się przykład słoika z czerwonymi i zielonymi żelkami.
Probabilista zaczyna od znajomości proporcji każdego z nich i powiedzmy, że znajduje prawdopodobieństwo narysowania czerwonej żelki. Statystyka określa proporcje czerwonych żelków, pobierając próbki ze słoika ”.
Teraz odsetek czerwonej galaretki uzyskanej przez pobranie próbki ze słoika jest wykorzystywany przez probabilistę do znalezienia prawdopodobieństwa wyciągnięcia czerwonej fasoli ze słoika
Rozważ ten przykład ---- >>>
W badaniu 30% studentów nie zdało fizyki, 25% nie zdało matematyki, 12% nie zdało egzaminu z fizyki i matematyki. Uczeń jest losowo wybierany, aby znaleźć prawdopodobieństwo, że uczeń zawiódł w fizyce, jeśli wiadomo, że zawiódł w matematyce.
Powyższa suma stanowi problem prawdopodobieństwa, ale jeśli przyjrzymy się uważnie, okaże się, że suma ta zawiera pewne dane statystyczne
30% studentów nie zdało fizyki, 25% matematyki Są to w zasadzie częstotliwości, jeśli obliczone są procenty. W ten sposób otrzymujemy dane statystyczne, które z kolei pomagają nam znaleźć prawdopodobieństwo
TAK PRAWDOPODOBIEŃSTWO I STATYSTYKA SĄ BARDZO DUŻO POŁĄCZONE LUB RAZEM, MOŻEMY POWIEDZIEĆ, ŻE PRAWDOPODOBIEŃSTWO JEST W ZALEŻNOŚCI OD STATYSTYKI
źródło
Pojęcie „statystyki” zostało pięknie wyjaśnione przez JC Maxwella w artykule Molecules (w Nature 8, 1873, s. 437–441). Pozwól mi zacytować odpowiedni fragment:
Wyjaśnia tę metodę statystyczną w kilku innych pracach. Na przykład: „W statystycznej metodzie badania nie śledzimy systemu podczas jego ruchu, ale skupiamy naszą uwagę na konkretnej fazie i sprawdzamy, czy system znajduje się w tej fazie, czy też nie, a także kiedy wchodzi w fazę a kiedy go opuszcza ”(Trans. Cambridge Philos. Soc. 12, 1879, ss. 547–570).
Jest jeszcze jeden piękny fragment Maxwella o „prawdopodobieństwie” (z listu do Campbella, 1850 r., Przedrukowanego w The Life of James Clerk Maxwell , s. 143):
Możemy więc powiedzieć:
- W statystykach „koncentrujemy naszą uwagę na małej liczbie sztucznych grup” lub ilościach; robimy coś w rodzaju katalogowania lub spisu.
- Prawdopodobnie obliczamy naszą niepewność dotyczącą niektórych zdarzeń lub wielkości.
Oba są różne i możemy robić jedno bez drugiego.
Na przykład, jeśli wykonamy pełny spis ludności całej narodu i policzymy dokładną liczbę osób należących do poszczególnych grup, takich jak wiek, płeć itd., Wykonujemy statystyki. Nie ma w tym żadnej niepewności - prawdopodobieństwa - ponieważ liczby, które znajdziemy, są dokładne i znane.
Z drugiej strony wyobraźmy sobie, jak ktoś przechodzi przed nami na ulicy, a my zastanawiamy się nad ich wiekiem. W tym przypadku nie jesteśmy pewni i używamy prawdopodobieństwa, ale nie ma w tym żadnych statystyk, ponieważ nie robimy jakiegoś spisu ani katalogu.
Ale te dwa mogą również wystąpić razem. Jeśli nie jesteśmy w stanie przeprowadzić pełnego spisu ludności, musimy zgadnąć, ile osób jest w określonych grupach wiekowych i płciowych. Dlatego używamy prawdopodobieństwa podczas tworzenia statystyk. Odwrotnie, możemy rozważyć dokładne dane statystyczne dotyczące wieku ludzi i na podstawie tych danych staramy się lepiej zgadywać o osobie przechodzącej przed nami. Dlatego używamy statystyk przy podejmowaniu decyzji o prawdopodobieństwie.
źródło