Oszacowanie parametrów procesu przestrzennego

12

Dostaję siatki dodatnich wartości całkowitych. Liczby te reprezentują intensywność, która powinna odpowiadać sile przekonania osoby zajmującej to miejsce na siatce (wyższa wartość oznacza wyższe przekonanie). Osoba na ogół będzie miała wpływ na wiele komórek siatki.n×n

Uważam, że wzorzec intensywności powinien „wyglądać gaussowsko”, ponieważ będzie centralne położenie o wysokiej intensywności, a następnie intensywności zwężą się promieniowo we wszystkich kierunkach. W szczególności chciałbym modelować wartości pochodzące ze „skalowanego Gaussa” z parametrem wariancji i innym współczynnikiem skali.

Istnieją dwa komplikujące czynniki:

  • nieobecność osoby nie będzie odpowiadać zerowej wartości z powodu szumu tła i innych efektów, ale wartości powinny być mniejsze. Mogą być jednak nieobliczalne i przy pierwszym przybliżeniu może być trudne do modelowania jako zwykłego szumu gaussowskiego.
  • Zakres intensywności może się różnić. W jednym przypadku wartości mogą mieścić się w zakresie od 1 do 10, aw innym między 1 a 100.

Szukam odpowiedniej strategii szacowania parametrów lub wskazówek do odpowiedniej literatury. Doceniam również wskazania, dlaczego podchodzę do tego problemu w niewłaściwy sposób :). Czytałem o krigingu i procesach gaussowskich, ale wydaje mi się, że to bardzo ciężka maszyneria dla mojego problemu.

Suresh Venkatasubramanian
źródło
1
Co rozumiesz przez Gaussa z parametrem wariancji i skali? Parametr wariancji jest parametrem skali Gaussa! Nie jestem również pewien, jaki model skonfigurowałeś do tej pory. Czy możesz bardziej szczegółowo opisać problem, który próbujesz rozwiązać? Używanie Gaussa do modelowania obserwacji o wartościach całkowitych o niskiej ziarnistości wydaje się podejrzane.
kardynał
(+1) Na interesujące pytanie. Czekamy na zrozumienie tego, co próbujesz rozwiązać nieco lepiej.
kardynał
Oto kilka spostrzeżeń: 1. Jeśli twoje wartości są liczbami całkowitymi, użycie Gaussa nie wydaje się właściwe. 2. Nie jest jasne, jaki jest cel twojego modelu, czy chcesz na przykład zidentyfikować grupy silnych przekonań? Jaka będzie interpretacja twoich parametrów, jeśli je posiadasz? 3. Skoro masz siatkę, dlaczego nie spróbować dopasować mieszanki rozkładów dwuwymiarowych? Wtedy siatka będzie podporą rozkładu (powiedzmy kwadrat kwadratowy), a intensywności będą odpowiadały regionom o wysokim prawdopodobieństwie.
mpiktas,
Dzięki wszystkim za interesujące punkty. Pozwól mi spróbować wyjaśnić. Wybór „Gaussa” w świetle komentarzy może być czerwonym śledziem, który powoduje więcej zamieszania niż pomaga. Kluczową cechą danych są wartości o wysokiej intensywności w punkcie największego przekonania o lokalizacji osoby oraz zwężające się „promieniowo” wokół niej (co zaobserwowałem empirycznie). Wartości intensywności pochodzą od rozwiązania odwrotnego (liniowego) problemu, a więc niekoniecznie muszą być integralne - to tylko dane, które mamy.
Suresh Venkatasubramanian
btw Doceniam próby uczynienia pytania bardziej precyzyjnym i lepiej modelowanym. Zrobię co w mojej mocy, aby wyjaśnić rzeczywiste ustawienie danych, aby uzyskać zgodność z właściwymi założeniami modelowania.
Suresh Venkatasubramanian

Odpowiedzi:

5

Możesz użyć tego modułu biblioteki Python Pysal do metod analizy danych przestrzennych, które omawiam poniżej.

Twój opis tego, w jaki sposób na postawę każdej osoby wpływają postawy otaczających ją osób, może być reprezentowany przez przestrzenny model autoregresyjny (SAR) (zobacz także moje proste wyjaśnienie SAR z tej odpowiedzi SE 2 ). Najprostszym podejściem jest zignorowanie innych czynników i oszacowanie siły wpływu, w jaki otaczający ludzie wpływają na nawzajem swoje postawy, za pomocą statystyki Morana I.

Jeśli chcesz ocenić ważność innych czynników przy szacowaniu siły wpływu otaczających ludzi, co jest bardziej złożonym zadaniem, możesz oszacować parametry regresji: . Zobacz dokumenty tutaj (metody szacowania tego rodzaju regresji pochodzą z dziedziny ekonometrii przestrzennej i mogą stać się znacznie bardziej wyrafinowane niż podane przeze mnie odniesienia).y=bx+rhoWy+e

Twoim wyzwaniem będzie zbudowanie przestrzennej macierzy wag ( ). Myślę, że każdy element macierzy powinien wynosić 1 lub 0 w zależności od tego, czy osoba znajduje się w pewnej odległości, czujesz, że trzeba wpływać na drugą osobę .w i j i jWwijij

Aby uzyskać intuicyjne wyobrażenie o problemie, poniżej ilustruję, w jaki sposób proces generowania danych z wykorzystaniem autoregresji przestrzennej (DGP) utworzy wzór wartości. Dla 2 sieci symulowanych wartości białe bloki reprezentują wysokie wartości, a ciemne bloki reprezentują niskie wartości.

W pierwszej sieci poniżej wartości siatki zostały wygenerowane przez normalnie rozłożony losowy proces (lub Gaussa), gdzie wynosi zero.rho

Losowy (gaussowski)

W następnej sieci poniżej wartości siatki zostały wygenerowane przez przestrzenny proces autoregresji, w którym zostało ustawione na coś wysokiego, powiedzmy .8. rhowprowadź opis zdjęcia tutaj

b_dev
źródło
To bardzo interesujące (podobnie jak powiązany Geary C). To może być blisko tego, czego potrzebuję.
Suresh Venkatasubramanian
Geary C pomaga zobaczyć, jak wartości zbliżają się do siebie w grupie, nawet wartości w środku rozkładu. Moran's I pomaga zobaczyć, jak bardzo wysokie wartości łączą się z bardzo wysokimi wartościami, a bardzo niskie wartości skupiają się wokół bardzo niskich wartości. Być może masz rację, a najprostszą i najlepszą metodą jest metoda Geary'ego C. Pamiętaj, że podejście C Geary'ego jest odkrywcze i nie pozwoli ci uzależniać wyników od innych czynników. Spójrz na ten moduł Pythona, aby uzyskać kod do uruchomienia C Geary'ego: pysal.org/1.1/library/esda/geary.html .
b_dev
Pozwólcie, że się nimi pobawię. Jeśli wydaje się, że robi to, czego potrzebuję (i myślę, że tak będzie), brzmi to jak najlepsza odpowiedź.
Suresh Venkatasubramanian
3

Oto prosty pomysł, który może zadziałać. Jak powiedziałem w komentarzach, jeśli masz siatkę o intensywnościach, dlaczego nie dopasujesz gęstości rozkładu dwuwymiarowego?

Oto przykładowy wykres ilustrujący mój punkt widzenia: wprowadź opis zdjęcia tutaj

Każdy punkt siatki z jest wyświetlany jako kwadrat, pokolorowany zgodnie z intensywnością. Na wykresie nałożono wykres konturowy dwuwymiarowego wykresu normalnej gęstości. Jak widać linie konturu rozszerzają się w kierunku malejącej intensywności. Centrum będzie kontrolowane za pomocą średniej dwuwymiarowej normalnej i rozproszenia intensywności zgodnie z macierzą kowariancji.

Aby uzyskać oszacowania macierzy średniej i macierzy kowariancji, można zastosować prostą optymalizację numeryczną, porównać intensywności z wartościami funkcji gęstości, stosując jako parametry średnią i macierz kowariancji. Minimalizuj, aby uzyskać prognozy.

Oczywiście nie jest to ściśle szacunek statystyczny, ale przynajmniej da ci pomysł, jak postępować dalej.

Oto kod do odtworzenia wykresu:

require(mvtnorm)
sigma=cbind(c(0.1,0.7*0.1),c(0.7*0.1,0.1))

x<-seq(0,1,by=0.01)
y<-seq(0,1,by=0.01)
z<-outer(x,y,function(x,y)dmvnorm(cbind(x,y),mean=mean,sigma=sigma))

mz<-melt(z)

mz$X1<-(mz$X1-1)/100
mz$X2<-(mz$X2-1)/100

colnames(mz)<-c("x","y","z")

mz$intensity<-round(mz$z*1000)

ggplot(mz, aes(x,y)) + geom_tile(aes(fill = intensity), colour = "white") + scale_fill_gradient(low = "white",     high = "steelblue")+geom_contour(aes(z=z),colour="black")
mpiktas
źródło
2

X[i,j]X[i,j](X[i1,j1],...,X[im,jm])(X[i1+k,j1+l]...,X[im+k,jm+l])corr(X[i1,j1],X[i2,j2])d([i1,j1],[i2,j2])ρ(d)ρ(d)=kd1k

d([i1,j1],[i2,j2])=|i1i2|+|j1j2|ρ(d)np. poprzez maksymalne prawdopodobieństwo. Aby uzyskać więcej pomysłów, poszukaj „pola losowego”.

charles.y.zheng
źródło
1
„Chcę założyć przestrzenną stacjonarność” wydaje się przeczyć założeniu PO, że „intensywności zmniejszają się promieniowo we wszystkich kierunkach”.
whuber
Jak to? Taki wzór wystąpiłby w zaproponowanej przeze mnie strukturze autokorelacji.
charles.y.zheng
1
@charles To ważny punkt: jeśli rzeczywiście ten pozorny trend należy przypisać autokorelacji, to w zasadzie inna niezależna realizacja tego procesu może wydawać się mieć zupełnie inny trend, taki jak wzrost wartości od punktu centralnego. Ponieważ PO wyraźnie wyartykułował i rozróżnił niektóre deterministyczne elementy trendu („zwężanie promieniowe”) i elementy korelacyjne („mają wpływ na wiele komórek siatki”), odpowiedź, która uwzględnia to, byłaby prawdopodobnie postrzegana bardziej pozytywnie niż twierdząca OP „będzie chciał” zmienić zdanie.
whuber
Nie jestem pewien, czy rozumiem warunek stacjonarnej stacjonarności. Na pierwszy rzut oka wydaje się, że jest to sprzeczne z pomysłem posiadania „piku, który zwęża się” w określonym miejscu, ale najwyraźniej czegoś nie rozumiem.
Suresh Venkatasubramanian
1
@charles, wzór, który opisujesz będzie obecny dla każdego z punktów siatki, ze względu na założenie przestrzennej stacjonarności. Stacjonarność zasadniczo mówi, że wszystkie moje punkty zachowują się podobnie. Nie jest to przypadek opisany przez OP. Odpowiedź nadal jest bardzo dobra, ale w tym przypadku nieodpowiednia.
mpiktas