Kilka pytań na temat losowości statystycznej

15

Ze statystycznej randonessy Wikipedii :

Losowość globalna i losowość lokalna są różne. Większość filozoficznych koncepcji losowości ma charakter globalny, ponieważ opierają się na założeniu, że „na dłuższą metę” sekwencja wygląda naprawdę losowo, nawet jeśli pewne podsekwencje nie wyglądałyby losowo. Na przykład w „prawdziwie” losowej sekwencji liczb o wystarczającej długości prawdopodobne jest, że będą długie sekwencje składające się wyłącznie z zer, choć ogólnie sekwencja może być losowa. Lokalna losowość odnosi się do idei, że mogą istnieć minimalne długości sekwencji, w których aproksymowane są rozkłady losowe.Długie odcinki tych samych cyfr, nawet te generowane przez „prawdziwie” losowe procesy, zmniejszyłyby „lokalną losowość” próbki (może być lokalnie losowa dla sekwencji 10 000 cyfr; pobieranie sekwencji mniejszych niż 1000 może nie wyglądać losowo w ogóle, na przykład).

W ten sposób sekwencja wykazująca wzór nie jest statystycznie losowa. Zgodnie z zasadami teorii Ramseya, wystarczająco duże obiekty muszą koniecznie zawierać daną podkonstrukcję („całkowite zaburzenie jest niemożliwe”).

Nie do końca rozumiem znaczenie dwóch zdań pogrubionych.

  1. Czy pierwsze zdanie oznacza, że ​​coś powoduje, że sekwencja jest lokalna losowa na dłuższej długości, a nie lokalna losowa na krótszej długości?

    Jak działa przykład w nawiasie?

  2. Czy zdanie drugie oznacza, że ​​nie można udowodnić, że sekwencja wykazująca wzór nie jest statystycznie losowa? Dlaczego?

Dzięki

Tim
źródło
1
dobre pytanie. Ten tekst wydaje mi się nieco zaskakujący. Myślałem, że to, czy sekwencja jest losowa, czy nie, ma związek z tym, jak jest generowana; nie jaki jest wynik. Podejrzewam, że jest tu problem językowy - dla mnie losowy oznacza, w jaki sposób jest generowany; dla zdrowego rozsądku (i być może mniej filozofów?) chodzi o coś, co wydaje się nieuporządkowane?
Peter Ellis,
3
@Peter, możesz mieć trudności z określeniem losowości, jeśli możesz odwoływać się tylko do mechanizmu generowania. Ostatecznie, ponieważ cała użyteczność sekwencji losowych polega na liczbach, które zawierają - a nie na sposobie ich tworzenia - musi istnieć sposób na zdefiniowanie i przetestowanie losowości wyłącznie pod względem sekwencji, nie sądzisz?
whuber
1
Z pewnością zgadzam się, że możesz przetestować losowość na podstawie jej wyników - dla prawdopodobieństwa losowości, bez dążenia do jej udowodnienia. Prawdopodobnie potrzebuję trochę więcej przeczytać i zastanowić się nad filozoficznymi wyzwaniami definicji opartej na pokoleniu.
Peter Ellis,
Myślę, że przypadkowość jest jedynie synonimem nieznanego. Ja też uważam to zdanie za bizzare
probabilityislogic
2
Dilbert
Henry

Odpowiedzi:

15

Koncepcję tę można zilustrować za pomocą kodu wykonywalnego. Zaczynamy (in R) od użycia dobrego generatora liczb pseudolosowych do utworzenia sekwencji 10 000 zer i jedynek:

set.seed(17)
x <- floor(runif(10000, min=0, max=2))

To przechodzi kilka podstawowych testów liczb losowych. Na przykład, test t w celu porównania średniej do ma wartość p 40,091/2)40.09 %, co pozwala nam przyjąć hipotezę, że zer i jedynek są jednakowo prawdopodobne.

Z tych liczb przystępujemy do wydobywania podsekwencji kolejnych wartości, zaczynając od 5081. wartości:1000

x0 <- x[1:1000 + 5080]

Jeśli mają wyglądać losowo, powinny również przejść te same testy liczb losowych. Na przykład sprawdźmy, czy ich średnia wynosi 1/2:

> t.test(x0-1/2)

    One Sample t-test

data:  x0 - 1/2 
t = 2.6005, df = 999, p-value = 0.009445
alternative hypothesis: true mean is not equal to 0 
95 percent confidence interval:
 0.01006167 0.07193833 
sample estimates:
mean of x 
    0.041 

Niska wartość p (mniej niż 1%), silnie sugeruje, że średnia jest znacznie większa niż . Rzeczywiście skumulowana suma tego podsekwencji wykazuje silny trend wzrostowy:1/2

> plot(cumsum(x0-1/2))

Losowy spacer?

To nie jest przypadkowe zachowanie!

Porównanie oryginalnej sekwencji (wykreślonej jako suma skumulowana) z tą podsekwencją ujawnia, co się dzieje:

Losowy spacer

9000


Jak wykazały te proste analizy, żaden test nie może „udowodnić”, że sekwencja wydaje się losowa. Wszystko, co możemy zrobić, to sprawdzenie, czy sekwencje odbiega na tyle od zachowań oczekiwanych od przypadkowych sekwencji zaoferować dowodów, że są one nie przypadkowe. Tak działają akumulatory testów liczb losowych : szukają wzorców, których pojawienie się w losowych sekwencjach liczbowych jest bardzo mało prawdopodobne. Co jakiś czas powodują, że dochodzimy do wniosku, że prawdziwie losowa sekwencja liczb nie wydaje się losowa: odrzucimy ją, próbując czegoś innego.

Jednak na dłuższą metę - tak jak wszyscy jesteśmy martwi - każdy generator liczb losowych wygeneruje każdą możliwą sekwencję 1000 cyfr i zrobi to nieskończenie wiele razy. To, co ratuje nas od logicznego rozterki, polega na tym, że musielibyśmy czekać strasznie długo na pojawienie się tak pozornej aberracji.

Whuber
źródło
Dzięki! Powiązane pytanie: czy przy losowości liczb pseudolosowych generowanych za pomocą niektórych metod losowość oznacza równomierny rozkład? Innymi słowy, czy testowanie losowości dotyczy tylko testowania jednolitych rozkładów? Zapytałem o to, ponieważ te bardziej stronnicze rozkłady wydają mi się mniej przypadkowe intuicyjnie.
Tim
@Tim: nie, istnieje wiele typowych testów losowości Gaussa i powinna istnieć możliwość konstruowania testów dla dowolnej dystrybucji.
naught101
1
[0,1)
2
Mogę prawie „spojrzeć” na górę odpowiedzi i powiedzieć „Whuber” :) Bardzo miło!
Doktorat
2

W tym fragmencie zastosowano pojęcia „lokalna losowość” i „globalna losowość”, aby rozróżnić, co może się zdarzyć przy skończonej liczbie próbek zmiennej losowej, a rozkładem prawdopodobieństwa lub oczekiwaniami zmiennej losowej.

xi{0,1}θθlimn1ni=1nxi=θ . Wynika to z prawa wielkich liczb.

[0,1][a,b]0a<b1θ .

Nic nowego tutaj.

Wydaje się jednak, że ten fragment wydaje się oczywisty, że większy n , tym bardziej prawdopodobne jest, że zachowanie wygląda „lokalnie losowo”, a „lokalnie losowo” zdefiniowano (niepoprawnie) jako wykazujące wzorce zbliżone do średniej ( w tym przykładzie).

Dlatego nie spaliłbym zbyt wielu komórek mózgowych myśląc o tym fragmencie. Nie jest to matematycznie tak precyzyjne i faktycznie wprowadza w błąd co do natury losowości.

Edytuj na podstawie komentarza: @kjetilbhalvorsen +1 do komentarza dotyczącego wiedzy historycznej. Jednak nadal uważam, że wartość tych warunków jest ograniczona i wprowadza w błąd. Tabele, które opisujesz, wydają się wprowadzać w błąd, że małe próbki, które mają na przykład próbkę, są dalekie od rzeczywistej oczekiwanej wartości lub być może nieprawdopodobną, ale z pewnością możliwą długą sekwencją powtarzanych zer (w moim przykładzie Bernoulliego), w jakiś sposób wykazują mniej przypadkowości (mówiąc, że nie wykazują fałszywej „lokalnej losowości”). Nie mogę wymyślić nic bardziej mylącego dla początkującego statystyki!

Chris A.
źródło
Chociaż „globalna losowość” wydaje się osobliwa, „lokalna losowość” ma co najmniej 20-letnią historię. Zobacz na przykład isiweb.ee.ethz.ch/papers/arch/umaure-mass-inspec-1991-1.pdf .
whuber
nn
2
Pamiętam, że czasami czytałem: w czasach, gdy ludzie publikowali książki z tabelami „liczb losowych”, które miały być używane do symulacji, eksperymentów itp., Niektóre z nich oznaczały części tabel jako odpowiednie do użycia w małych symulacjach (pokazując „lokalne” przypadkowość ”) i inne części, które powinny być używane tylko do większych symulacji (wykazujących„ globalną losowość ”). Więc koncepcje wydają się wskazywać na coś cennego!
kjetil b halvorsen
1
Przepraszam, nie pamiętam, gdzie to przeczytałem. Ale jest to prawie oczywiste: całkiem oprócz filozoficznych problemów z określaniem losowości, jeśli masz bardzo małe symulacje, w których potrzebujesz 1000 liczb losowych, a wysokiej jakości generator losowy daje 1000 zer, ¿Co robisz? Pomimo faktu, że takie zdarzenia są możliwe i wręcz konieczne w „prawdziwie losowej” sekwencji, twoja symulacja jest zrujnowana!
kjetil b halvorsen
1
Dzięki chłopaki, być może byłem zbyt surowy w swoim potępieniu. Zmienię trochę język.
Chris A.
-1

Myślę, że autorzy postu na Wikipedii źle interpretują przypadkowość. Tak, mogą istnieć odcinki, które wydają się nie być losowe, ale jeśli proces, który utworzył sekwencję, jest naprawdę losowy, to musi być wynikiem. Jeśli pewne sekwencje wydają się nieprzypadkowe, jest to błędne postrzeganie czytelnika (tj. Ludzie są zaprojektowani do znajdowania wzorców). Nasza zdolność widzenia Wielkiego Wozu, Oriona itp. Na nocnym niebie nie świadczy o tym, że wzory gwiazd nie są przypadkowe. Zgadzam się, że losowość często wydaje się nielosowa. Jeśli proces generuje prawdziwie nielosowe wzory dla krótkich sekwencji, nie jest to proces losowy.

Nie sądzę, że proces zmienia się przy różnych wielkościach próbek. Zwiększasz wielkość próby, zwiększasz prawdopodobieństwo, że zobaczymy losową sekwencję, która wydaje się nam nielosowa. Jeśli istnieje 10% szansa, że ​​zobaczymy wzorzec w 20 losowych obserwacjach, zwiększenie całkowitej liczby obserwacji do 10000 zwiększyłoby prawdopodobieństwo, że gdzieś zobaczymy nielosowość.

Auritus
źródło
2
„Jeśli proces generuje prawdziwie nielosowe wzorce dla krótkich sekwencji, nie jest to proces przypadkowy”, obawiam się, że jest całkowicie niepoprawny. Na przykład, na każde 100 rzutów uczciwej monety, spodziewalibyśmy się obserwowania sześciu głów lub sześciu ogonów z rzędu - i to jest „prawdziwie nielosowy wzór dla [krótkiej sekwencji” według niemal każdego znaczenia „losowy”. „ Podejrzewam, że chciałeś napisać coś, co wymaga dokładniejszych kwalifikacji, na przykład zastosowanie „wszystkich” przed „krótkimi sekwencjami”.
whuber
Naprawdę? Pomyślałbym, że skoro spodziewamy się zobaczyć ciągi ogonów z generatora liczb losowych, to kiedy go zobaczymy, nie powinniśmy być zaskoczeni. Po co uważać to za przypadek? Gdyby ktoś miał generator liczb, który wykonał 100 przewrotów i celowo uniknął 4 lub więcej głów lub ogonów z rzędu, wyglądałby bardziej losowo niż naprawdę losowy proces, ale w rzeczywistości byłby to przypadek. Naiwnym poglądem na losowość jest brak wszystkich wzorców - ale byłoby to nielosowe.
P auritus
Twój komentarz jest poprawny, ale wyjaśnienie w twojej odpowiedzi jest niejasne, a nawet sprzeczne w tej kwestii. Zastanów się nad wyjaśnieniem, co masz na myśli przez generowanie „prawdziwie nielosowych wzorów dla krótkich sekwencji”, lub co to znaczy „widzieć nielosowość”.
whuber
Nie widzę sprzeczności. Wydaje ci się, że generatory losowe tworzą nielosowe wzorce. To jest sprzeczność. Argumentujesz, że prawdziwie losowe procesy wygenerują nieprzypadkowe obserwacje. To, co opisujesz, nazywa się czasem „iluzją klastrów”, która ma tendencję do nieprawidłowego postrzegania klastrów z losowych rozkładów. Mówię tylko, że jeśli proces tworzy nielosowe obserwacje, to nie jest przypadkowy. Twierdzisz, że oczekujesz, że losowy proces utworzy ciąg nielosowych obserwacji, ale nazywasz to nielosowym. Klasyczny przykład Apofenii.
P auritus
1
Ciężko jest prowadzić rozmowę z rozmówcą, który źle wypowiada się na temat swojego stanowiska, więc się wygnę. Przepraszam.
whuber