Dostaję siatki dodatnich wartości całkowitych. Liczby te reprezentują intensywność, która powinna odpowiadać sile przekonania osoby zajmującej to miejsce na siatce (wyższa wartość oznacza wyższe przekonanie). Osoba na ogół będzie miała wpływ na wiele komórek siatki.
Uważam, że wzorzec intensywności powinien „wyglądać gaussowsko”, ponieważ będzie centralne położenie o wysokiej intensywności, a następnie intensywności zwężą się promieniowo we wszystkich kierunkach. W szczególności chciałbym modelować wartości pochodzące ze „skalowanego Gaussa” z parametrem wariancji i innym współczynnikiem skali.
Istnieją dwa komplikujące czynniki:
- nieobecność osoby nie będzie odpowiadać zerowej wartości z powodu szumu tła i innych efektów, ale wartości powinny być mniejsze. Mogą być jednak nieobliczalne i przy pierwszym przybliżeniu może być trudne do modelowania jako zwykłego szumu gaussowskiego.
- Zakres intensywności może się różnić. W jednym przypadku wartości mogą mieścić się w zakresie od 1 do 10, aw innym między 1 a 100.
Szukam odpowiedniej strategii szacowania parametrów lub wskazówek do odpowiedniej literatury. Doceniam również wskazania, dlaczego podchodzę do tego problemu w niewłaściwy sposób :). Czytałem o krigingu i procesach gaussowskich, ale wydaje mi się, że to bardzo ciężka maszyneria dla mojego problemu.
źródło
Odpowiedzi:
Możesz użyć tego modułu biblioteki Python Pysal do metod analizy danych przestrzennych, które omawiam poniżej.
Twój opis tego, w jaki sposób na postawę każdej osoby wpływają postawy otaczających ją osób, może być reprezentowany przez przestrzenny model autoregresyjny (SAR) (zobacz także moje proste wyjaśnienie SAR z tej odpowiedzi SE 2 ). Najprostszym podejściem jest zignorowanie innych czynników i oszacowanie siły wpływu, w jaki otaczający ludzie wpływają na nawzajem swoje postawy, za pomocą statystyki Morana I.
Jeśli chcesz ocenić ważność innych czynników przy szacowaniu siły wpływu otaczających ludzi, co jest bardziej złożonym zadaniem, możesz oszacować parametry regresji: . Zobacz dokumenty tutaj (metody szacowania tego rodzaju regresji pochodzą z dziedziny ekonometrii przestrzennej i mogą stać się znacznie bardziej wyrafinowane niż podane przeze mnie odniesienia).y= b x + r h o Wy+ e
Twoim wyzwaniem będzie zbudowanie przestrzennej macierzy wag ( ). Myślę, że każdy element macierzy powinien wynosić 1 lub 0 w zależności od tego, czy osoba znajduje się w pewnej odległości, czujesz, że trzeba wpływać na drugą osobę .w i j i jW. wI j ja jot
Aby uzyskać intuicyjne wyobrażenie o problemie, poniżej ilustruję, w jaki sposób proces generowania danych z wykorzystaniem autoregresji przestrzennej (DGP) utworzy wzór wartości. Dla 2 sieci symulowanych wartości białe bloki reprezentują wysokie wartości, a ciemne bloki reprezentują niskie wartości.
W pierwszej sieci poniżej wartości siatki zostały wygenerowane przez normalnie rozłożony losowy proces (lub Gaussa), gdzie wynosi zero.r h o
W następnej sieci poniżej wartości siatki zostały wygenerowane przez przestrzenny proces autoregresji, w którym zostało ustawione na coś wysokiego, powiedzmy .8.r h o
źródło
Oto prosty pomysł, który może zadziałać. Jak powiedziałem w komentarzach, jeśli masz siatkę o intensywnościach, dlaczego nie dopasujesz gęstości rozkładu dwuwymiarowego?
Oto przykładowy wykres ilustrujący mój punkt widzenia:
Każdy punkt siatki z jest wyświetlany jako kwadrat, pokolorowany zgodnie z intensywnością. Na wykresie nałożono wykres konturowy dwuwymiarowego wykresu normalnej gęstości. Jak widać linie konturu rozszerzają się w kierunku malejącej intensywności. Centrum będzie kontrolowane za pomocą średniej dwuwymiarowej normalnej i rozproszenia intensywności zgodnie z macierzą kowariancji.
Aby uzyskać oszacowania macierzy średniej i macierzy kowariancji, można zastosować prostą optymalizację numeryczną, porównać intensywności z wartościami funkcji gęstości, stosując jako parametry średnią i macierz kowariancji. Minimalizuj, aby uzyskać prognozy.
Oczywiście nie jest to ściśle szacunek statystyczny, ale przynajmniej da ci pomysł, jak postępować dalej.
Oto kod do odtworzenia wykresu:
źródło
źródło