Próbuję napisać serię postów na blogu o wartościach p i pomyślałem, że warto wrócić do miejsca, w którym wszystko się zaczęło - co wydaje się być artykułem Pearsona z 1900 roku. Jeśli znasz ten papier, pamiętasz, że obejmuje to testowanie dopasowania.
Pearson jest nieco luźny w swoim języku, jeśli chodzi o wartości p. Wielokrotnie używa „szans” przy opisywaniu sposobu interpretacji swojej wartości p. Na przykład na str. 168, gdy mówi o wynikach powtarzanych rzutów 12 kośćmi, mówi „ ... co prowadzi nas do P = .0000016, lub szanse wynoszą 62 4299 na 1 w stosunku do takiego systemu odchyleń losowo przy takich szansach uzasadnione byłoby stwierdzenie, że kości wykazują tendencję do wyższych punktów. ”
W tym artykule odwołuje się do wcześniejszych prac, w tym do książki z 1891 r. O najmniejszych kwadratach autorstwa Merrimana.
Ale Pearson określa rachunek dla wartości p (wrt chi-kwadrat dobroci testu dopasowania).
Czy Pearson był pierwszą osobą, która wymyśliła wartości p? Kiedy przeprowadzam wyszukiwanie wartości p, wspomina się o Fisher - a jego praca była w latach dwudziestych.
Zredagowano: i dziękuję za wzmiankę o Laplace'u - najwyraźniej nie odnosi się on do hipotezy zerowej (Pearson wydaje się to robić w sposób dorozumiany, chociaż nigdy nie użył tego terminu w swoim artykule z 1900 r.). Pearson przyjrzał się dobroci testowania dopasowania z: zakładając, że liczby pochodzą z bezstronnego procesu, jakie jest prawdopodobieństwo, że zaobserwowane liczby (i liczby bardziej odchylone) wynikną z założonego rozkładu?
Jego podejście do prawdopodobieństw / szans (konwertuje prawdopodobieństwa na szanse) sugeruje, że pracuje z ukrytą ideą hipotezy zerowej. Co najważniejsze, wspomina również, że prawdopodobieństwo wynikające z wartości x ^ 2 pokazuje szanse „w stosunku do systemu odchyleń jako nieprawdopodobnego lub bardziej nieprawdopodobnego niż ten” - język, który rozpoznajemy teraz - w odniesieniu do jego obliczonych wartości p.
Czy Arbuthnot posunął się tak daleko?
Dodaj komentarze jako odpowiedzi. Byłoby miło zobaczyć dyskusję.
źródło
Odpowiedzi:
Jacob Bernoulli (~ 1700) - John Arbuthnot (1710) - Nicolaus Bernoulli (1710s) - Abraham de Moivre (1718)
Sprawa Arbuthnota 1, patrz wyjaśnienie w nocie poniżej , można również przeczytać w Doktrynie szansy de Moivre (1718) ze strony 251–254, która rozszerza tę linię myślenia.
De Moivre czyni dwa kroki / postępy:
Normalne przybliżenie rozkładu Bernoulliego, które pomaga łatwo obliczyć prawdopodobieństwa dla wyników mieszczących się w określonym zakresie lub poza nim. W części przed przykładem o sprawie Arbuthnota de Moivre pisze o swoim przybliżeniu (obecnie nazywanym rozkładem Gaussa / normalnym) dla rozkładu Bernoulliego. To przybliżenie pozwala łatwo obliczyć wartość p (czego Arbuthnot nie mógł zrobić).
Uogólnienie argumentu Arbuthnota.Wspomina, że „ta metoda rozumowania może być również przydatna w niektórych innych bardzo interesujących zapytaniach”. (co może częściowo przypisać de Moivre'owi widzenie ogólnego zastosowania argumentu)
Według de Moivre Jacob Bernoulli napisał o tym problemie w swoim Ars Conjectandi . De Moivre nazywa to po angielsku: „Określając granice, w których przy powtarzaniu eksperymentów prawdopodobieństwo zdarzenia może zbliżyć się do podanego prawdopodobieństwa w nieskończoność”, ale oryginalny tekst Bernouilli jest po łacinie. Nie znam wystarczającej łaciny, aby móc dowiedzieć się, czy Bernoulli pisał o pojęciu takim jak wartość p lub bardziej jak prawo wielkich liczb. Warto zauważyć, że Bernouilli twierdzi, że miał te pomysły od 20 lat (a także praca 1713 została opublikowana po jego śmierci 1705, więc wydaje się, że poprzedza datę 1710 wymienioną w komentarzach @Glen_b dla Arbuthnota).
Jednym ze źródeł inspiracji dla de Moivre był Nicolaus Bernouilli, który w 1712/1713 dokonał obliczeń prawdopodobieństwa, że liczba urodzonych chłopców jest nie mniejsza niż 7037 i nie większa niż 7363, kiedy 14000 to liczba urodzonych dzieci i prawdopodobieństwo dla chłopca to 18/35.
(Liczby dla tego problemu oparto na 80-letnich statystykach dla Londynu. Pisał o tym w listach do Pierre'a Raymonda de Montmorta opublikowanych w drugim wydaniu (1713) Montsort's Essay d'analyse sur les jeux de hazard .)
Obliczenia, których nie do końca śledziłem, wykazały prawdopodobieństwo 43,58 do 1. (Używając komputera sumującego wszystkie warunki prawdopodobieństwa dwumianu od 7037 do 7363, otrzymuję 175: 1, więc mogłem źle zinterpretować jego pracę / obliczenia. )
1: John Arbuthnot napisał o tej sprawie w Argumentie o boską opatrzność, wziętym ze stałej regularności obserwowanej przy narodzinach obu płci (1710).
Napisane przez StackExchangeStrike
źródło
Mam trzy wspierające linki / argumenty, które wspierają datę ~ 1600-1650 dla formalnie opracowanych statystyk i znacznie wcześniej dla samego użycia prawdopodobieństwa.
Jeśli akceptujesz testowanie hipotez jako podstawę, wyprzedzając prawdopodobieństwo, to Online Etymology Dictionary oferuje:
Oferty Wikisłownika :
O prawdopodobieństwie i statystykach Wikipedia oferuje:
Z „Wolfram, Stephen (2002). A New Kind of Science. Wolfram Media, Inc. s. 1082.”:
Innych źródeł:
Sekcja „Początki historyczne” stanowi:
[1] Arbuthnott J. Argument za Boską Opatrznością, wzięty ze stałej regularności obserwowanej w narodzinach obu płci. Phil Trans 1710; 27: 186–90. doi: 10.1098 / rstl.1710.0011 opublikowano 1 stycznia 1710 r
Mamy trochę dalszej dyskusji na naszej stronie SE dotyczących sposobu Fischer vs. Neyman-Pearson-Wald tutaj: jest „hybrydowy” między Fisher-Neyman i Pearson podejść do testów statystycznych naprawdę „niespójny miszmasz”? .
Artykuł w Journal of Epidemiology and Biostatistics (2001) Vol. 6, nr 2, 193–204 autorstwa Senna, zatytułowany: „Opinia: Dwa okrzyki dla wartości P?” wyjaśnia to we wstępie:
Referencje
Amerykańskie Stowarzyszenie Statystyczne ma stronę internetową poświęconą Historii Statystyki, która wraz z tymi informacjami ma plakat (powielony częściowo poniżej) zatytułowany „Oś czasu statystyki”.
AD 2: Zachowały się dowody spisu ludności dokonanego podczas panowania dynastii Han.
1500s: Girolamo Cardano oblicza prawdopodobieństwo różnych rzutów kostką.
1600s: Edmund Halley wiąże śmiertelność z wiekiem i opracowuje tabele umieralności.
1700: Thomas Jefferson prowadzi pierwszy amerykański spis powszechny.
1839: Powstaje Amerykańskie Stowarzyszenie Statystyczne.
1894: Karl Pearson wprowadza termin „odchylenie standardowe”.
1935: RA Fisher publikuje Design of Experiments.
W sekcji „Historia” na stronie Wikipedii „ Prawo dużych liczb ” wyjaśnia:
Nie, prawdopodobnie nie.
W „ Oświadczeniu ASA w sprawie p-wartości: kontekst, proces i cel ” (09 czerwca 2016 r.) Wassersteina i Lazara, doi: 10.1080 / 00031305.2016.1154108 jest oficjalny oświadczenie w sprawie definicji wartości p (która nie jest wątpliwości nie uzgodnione przez wszystkie dyscypliny wykorzystujące lub odrzucające wartości p), które brzmią:
" . Co to jest wartość p?
Nieformalnie wartość p jest prawdopodobieństwem w ramach określonego modelu statystycznego, że statystyczne podsumowanie danych (np. Średnia różnica w próbie między dwiema porównywanymi grupami) byłoby równe lub bardziej ekstremalne niż wartość obserwowana.
3. Zasady
...
6. Wartość p nie jest sama w sobie dobrym dowodem na temat modelu lub hipotezy.
Badacze powinni uznać, że wartość p bez kontekstu lub innych dowodów dostarcza ograniczonych informacji. Na przykład sama wartość p blisko 0,05 sama w sobie stanowi jedynie słaby dowód przeciwko hipotezie zerowej. Podobnie stosunkowo duża wartość p nie sugeruje dowodów na korzyść hipotezy zerowej; wiele innych hipotez może być jednakowo lub bardziej spójnych z obserwowanymi danymi. Z tych powodów analiza danych nie powinna kończyć się obliczeniem wartości p, gdy inne podejścia są właściwe i wykonalne. ”.
Odrzucenie hipotezy zerowej prawdopodobnie nastąpiło na długo przed Pearsonem.
Strona Wikipedii na temat wczesnych przykładów testowania hipotez zerowych stwierdza:
Wczesne wybory hipotezy zerowej
Paul Meehl argumentował, że znaczenie epistemologiczne wyboru hipotezy zerowej w dużej mierze nie zostało potwierdzone. Gdy hipoteza teoretyczna przewiduje hipotezę zerową, bardziej precyzyjny eksperyment będzie surowszym sprawdzianem leżącej u podstaw teorii. Gdy hipoteza zerowa przyjmuje domyślnie „brak różnicy” lub „brak efektu”, bardziej precyzyjny eksperyment jest mniej surowym testem teorii, która motywowała do przeprowadzenia eksperymentu. Analiza pochodzenia tej ostatniej praktyki może być zatem przydatna:
1778: Pierre Laplace porównuje przyrost naturalny chłopców i dziewcząt w wielu europejskich miastach. Stwierdza: „naturalne jest stwierdzenie, że możliwości te są prawie w tym samym stosunku”. Zatem zerowa hipoteza Laplace'a, że przyrost naturalny chłopców i dziewcząt powinien być równy, biorąc pod uwagę „konwencjonalną mądrość”.
1900: Karl Pearson opracowuje test chi-kwadrat, aby ustalić „czy dana forma krzywej częstotliwości skutecznie opisuje próbki pobrane z danej populacji”. Zatem hipotezą zerową jest to, że populacja jest opisywana przez pewien rozkład przewidziany teoretycznie. Używa jako przykładu liczb pięciu i szóstek w danych rzutu kostką Weldon.
1904: Karl Pearson opracowuje koncepcję „nieprzewidzianych okoliczności” w celu ustalenia, czy wyniki są niezależne od danego czynnika kategorialnego. Tutaj hipoteza zerowa jest domyślnie, że dwie rzeczy nie są ze sobą powiązane (np. Tworzenie blizn i śmiertelność z powodu ospy). Hipoteza zerowa w tym przypadku nie jest już przewidywana przez teorię lub konwencjonalną mądrość, ale jest raczej zasadą obojętności, która prowadzi Fishera i innych do odrzucenia użycia „odwrotnych prawdopodobieństw”.
Pomimo uznania jednej osoby za odrzucenie hipotezy zerowej, nie uważam za rozsądne nazywanie jej „ odkryciem sceptycyzmu opartego na słabej pozycji matematycznej”.
źródło