Próbuję skonstruować dowód na problem, nad którym pracuję, a jednym z założeń, które robię, jest to, że zbiór punktów, z których próbuję, jest gęsty na całej przestrzeni. Praktycznie używam łacińskiego próbkowania hipersześcianu, aby uzyskać punkty w całej przestrzeni próbki. Chciałbym wiedzieć, czy próbki łacińskiej hipersześcianu są gęste na całej przestrzeni, jeśli pozwalasz, by wielkość twojej próbki była ? Jeśli tak, to należy docenić wzmiankę o tym fakcie.
sampling
asymptotics
latin-square
latin-hypercube
kjetil b halvorsen
źródło
źródło
Odpowiedzi:
Krótka odpowiedź: tak, w sposób probabilistyczny. Możliwe jest wykazanie, że przy dowolnej odległości , dowolnym skończonym podzbiorze przestrzeni próbki i każdej określonej „tolerancji” , dla odpowiednio dużych próbek możemy być się, że prawdopodobieństwo, że istnieje punkt próbki w odległości z jest dla wszystkich .{ x 1 , … , x m } δ > 0 ϵ x i > 1 - δ i = 1 , … , mϵ>0 {x1,…,xm} δ>0 ϵ xi >1−δ i=1,…,m
Długa odpowiedź: nie znam żadnego bezpośrednio związanego cytatu (ale patrz poniżej). Większość literatury na temat próbkowania Latin Hypercube (LHS) dotyczy jej właściwości zmniejszania wariancji. Innym problemem jest to, co oznacza powiedzieć, że wielkość próby ma tendencję do ? W przypadku prostego losowego próbkowania IID próbkę o wielkości można uzyskać z próbki o wielkości , dołączając kolejną niezależną próbkę. W przypadku LHS nie sądzę, abyś mógł to zrobić, ponieważ liczba próbek jest z góry określona w ramach procedury. Wygląda więc na to, że trzeba by wziąć kolejnych niezależnych próbek LHS wielkości .n n - 1 1 , 2 , 3 , . . .∞ n n−1 1,2,3,...
Musi również istnieć jakiś sposób interpretacji „gęstej” granicy, ponieważ wielkość próby ma tendencję do . Gęstość nie wydaje się utrzymywać w sposób deterministyczny dla LHS, np. W dwóch wymiarach, można wybrać sekwencję próbek LHS o wielkości tak, aby wszystkie trzymały się przekątnej . Konieczna wydaje się więc pewna definicja probabilistyczna. Pozwolić, dla każdego , jest próbka o wymiarach generowane według pewnej stochastycznego mechanizmu. Załóżmy, że dla różnych próbki te są niezależne. Następnie, aby zdefiniować asymptotyczną gęstość, możemy tego wymagać dla każdego i dla każdego1 , 2 , 3 , . . . [ 0 , 1 ), 2 N X N = ( X n 1 , X n 2 , .∞ 1,2,3,... [0,1)2 n n n ε > 0Xn=(Xn1,Xn2,...,Xnn) n n ϵ>0 [ 0 , 1 ) d P ( m i n 1 ≤ k ≤ n ‖ Xx w przestrzeni próbki (przyjmowanej jako ) mamy ( jako ).[0,1)d n→∞P(min1≤k≤n∥Xnk−x∥≥ϵ)→0 n→∞
Jeżeli próbka jest otrzymana przez pobranie niezależnych próbek z rozkładu („losowe próbkowanie IID”), to gdzie jest objętością wymiarowej kuli o promieniu . Tak więc z pewnością losowe próbkowanie IID jest asymptotycznie gęste. n U ( [ 0 , 1 ) d ) P ( m i n 1 ≤ k ≤ n ‖ X n kXn n U([0,1)d) v ϵ d ϵ
Rozważmy teraz przypadek, w którym próbki są uzyskiwane przez LHS. Twierdzenie 10.1 w tych uwagach stwierdza, że wszystkie elementy próbki są rozłożone jako . Jednak permutacje zastosowane w definicji LHS (choć niezależne dla różnych wymiarów) indukują pewną zależność między członami próbki ( ), więc mniej oczywiste jest, że właściwość gęstości asymptotycznej utrzymuje się.X n U ( [ 0 , 1 ) d ) X n k , k ≤ nXn Xn U([0,1)d) Xnk,k≤n
Napraw i . Zdefiniuj . Chcemy pokazać, że . Aby to zrobić, możemy skorzystać z Propozycji 10.3 w tych notatkach , która jest rodzajem Twierdzenia o granicy centralnej dla próbkowania Latin Hypercube. Zdefiniuj przez jeżeli jest w kuli o promieniu wokół , przeciwnym razie Następnie Propozycja 10.3 mówi nam, że gdzie ix ∈ [ 0 , 1 ) d P n = P ( m i n 1 ≤ k ≤ n ‖ X n k - x ‖ ≥ ϵ )ϵ>0 x∈[0,1)d Pn=P(min1≤k≤n∥Xnk−x∥≥ϵ) f : [ 0 , 1 ] d → R f ( z ) = 1 z ϵ x f ( z )Pn→0 f:[0,1]d→R f(z)=1 z ϵ x Y n : = √f(z)=0 μ = ∫ [ 0 , 1 ], d FYn:=n−−√(μ^LHS−μ)→dN(0,Σ) μ L H S = 1μ=∫[0,1]df(z)dz μ^LHS=1n∑ni=1f(Xni) .
Weź . W końcu, dla wystarczająco dużego , będziemy mieli . Więc w końcu będziemy mieli . Dlatego , gdzie jest standardowym normalnym cdf. Ponieważ był arbitralny, wynika z tego, że zgodnie z wymaganiami.n - √L>0 n Pn=P(Yn=- √−n−−√μ<−L lim sup P n ≤ lim sup P ( Y n < - L ) = Φ ( - LPn=P(Yn=−n−−√μ)≤P(Yn<−L) ΦLPn→0lim supPn≤lim supP(Yn<−L)=Φ(−LΣ√) Φ L Pn→0
Dowodzi to asymptotycznej gęstości (jak zdefiniowano powyżej) zarówno dla losowego próbkowania iid, jak i LHS. Nieformalnie, oznacza to, że podane żadnego i wszelkie w przestrzeni próbkowania, prawdopodobieństwo, że próbka trafia do wewnątrz z może być wykonana jako zbliżona do 1, jak należy, wybierając wielkość próbki dostatecznie duża. Łatwo jest rozszerzyć pojęcie gęstości asymptotycznej, aby zastosować ją do skończonych podzbiorów przestrzeni próbki - poprzez zastosowanie tego, co już wiemy, do każdego punktu w skończonym podzbiorze. Bardziej formalnie oznacza to, że możemy pokazać: dla dowolnego i dowolnego skończonego podzbioru przestrzeni próbki,x ε x ε > 0 { x 1 , . . .ϵ x ϵ x ϵ>0 m i n 1 ≤ j ≤ m P ( m i n 1 ≤ k ≤ n ‖ X n k - x j ‖ < ϵ ) → 1 n → ∞{x1,...,xm} min1≤j≤mP(min1≤k≤n∥Xnk−xj∥<ϵ)→1 (jako ).n→∞
źródło
Nie jestem pewien, czy tego właśnie chcesz, ale proszę bardzo.
Powiedzmy, że próbujesz LHS punktów od . Będziemy bardzo nieformalnie argumentować, że dla każdego oczekiwana liczba pustych (hiper) prostopadłościanów o rozmiarze w każdym wymiarze spada do zera jako .[ 0 , 1 )n [0,1)d ϵ n → ∞ϵ>0 ϵ n→∞
Niech , aby jeśli podzielimy równomiernie na maleńkie prostopadłościany - powiedzmy mikrokuboidy - o szerokości wówczas każda prostopadłościan- zawiera co najmniej jeden mikrokuboid. Jeśli więc możemy wykazać, że oczekiwana liczba niespróbkowanych mikrokuboidów wynosi zero, w granicach od , to skończymy. (Zauważ, że nasze mikrokuboidy są ułożone na regularnej siatce, ale kuboidy mogą znajdować się w dowolnej pozycji).[m=⌈2/ϵ⌉ m d 1[0,1)d md ϵ n → ∞ ϵ1/m ϵ n→∞ ϵ
Szansa całkowitego pominięcia danego mikrokuboidu w pierwszym punkcie próbki wynosi , niezależnie od , ponieważ pierwszy zestaw współrzędnych próbki (pierwszy punkt próbki) można dowolnie wybierać. Biorąc pod uwagę, że w pierwszych kilku punktach próbkowania wszystkie pominęły ten mikrokuboid, kolejne punkty próbne będą trudniejsze do pominięcia (średnio), więc szansa na brak wszystkich punktów jest mniejsza niż . n d1−m−d n d ( 1 - m - d ) nn (1−m−d)n
W jest mikrokuboidów , więc oczekiwana liczba, która jest pominięta, jest ograniczona przez - ponieważ dodają oczekiwania - co jest zero w limicie jako .md m d ( 1[0,1)d n → ∞md(1−m−d)n n→∞
Aktualizacje ...
(1) Oto zdjęcie pokazujące, jak dla danego można wybrać wystarczająco duże, aby zagwarantować, że siatka „mikrokuboidów” (kwadraty na tej dwuwymiarowej ilustracji) ma co najmniej jeden mikrokuboid w obrębie dowolny region wielkości . Pokazałem dwa „losowo” wybrane regiony i wybarwiłem na fioletowo dwa mikrokuboidy, które zawierają.m m ×ϵ m ϵ × ϵ ϵ × ϵm×m ϵ×ϵ ϵ×ϵ
(2) Weź pod uwagę każdy konkretny mikrokuboid. Ma objętość , ułamek całej przestrzeni. Tak więc pierwsza próbka LHS - która jest jedyną wybraną całkowicie swobodnie - będzie tęsknić z prawdopodobieństwem . Jedynym ważnym faktem jest to, że jest to stała wartość (pozwolimy , ale utrzymamy stałą), która jest mniejsza niż .m - d 1 - m(1/m)d m−d n→∞m11−m−d n→∞ m 1
(3) Pomyśl teraz o liczbie punktów próbnych . Zilustrowałem na zdjęciu . LHS działa w drobnej siatce tych super-małych „nanokuboidów” (jeśli wolisz), a nie większych wielkości „mikrokuboidów”, ale tak naprawdę nie jest to ważne w dowodzie. Dowód potrzebuje jedynie lekko machającego ręką stwierdzenia, że stopniowo staje się ono coraz trudniejsze, aby nadal tracić dany mikrokuboid, gdy rzucasz więcej punktów. Było więc prawdopodobieństwo dla pierwszego brakującego punktu LHS, ale mniej niż dla wszystkich brakujących : to zero w limicie, ponieważn = 6 m n - 1 × n - 1 m - 1 × m - 1 1 - m - d ( 1 - m - d ) n n n → ∞n>m n=6m n−1×n−1 m−1×m−1 1−m−d (1−m−d)n n n→∞ .
(4) Wszystkie te epsilony nadają się na dowód, ale nie są świetne dla twojej intuicji. Oto kilka zdjęć ilustrujących i punktów próbki, z zaznaczonym największym pustym prostokątnym obszarem. (Siatka jest siatką próbkowania LHS - „nanokuboidy”, o których mowa wcześniej.) Powinno być „oczywiste” (w pewnym niejasnym intuicyjnym sensie), że największy pusty obszar zmniejszy się do arbitralnie małego rozmiaru jako liczba punktów próbki .n = 50 n → ∞n=10 n=50 n→∞
źródło