Raportowanie wyników dopasowania krzywej w artykule naukowym

11

(Mam nadzieję, że to pytanie pasuje do tej witryny; jeśli nie, przyjmij moje przeprosiny).

Przeprowadziłem pewną symulację i uzyskałem szereg czasowy y (t), t = 0, 1, ... 20. Po wypróbowaniu niektórych funkcji stwierdziłem, że:

y(t) =~ 1 / (A t + B)

Gdzie A i B to współczynniki I obliczone przy użyciu regresji liniowej, przy R ^ 2> 0,99.

Jaki jest standardowy sposób zgłaszania takich wyników w pracy naukowej? Konkretnie:

A. Nie mam teoretycznego wyjaśnienia, dlaczego wynik wygląda tak (wiem, że powinien się zmniejszać i że jest ograniczony od dołu, ale niewiele więcej). To był tylko udany przypuszczenie. Czy powinienem opisać wszystkie inne nieudane domysły, które próbowałem?

B. Za każdym razem, gdy uruchamiam symulację, otrzymuję nieco inne wartości A i B. Czy powinienem po prostu zgłosić losowy przebieg, czy też powinienem uruchomić symulację wiele razy i uśrednić wyniki? Jeśli tak, ile razy to wystarczy?

Erel Segal-Halevi
źródło
Co chcesz przekazać? Co reprezentuje każda indywidualna symulacja?
Bill Barth
To symulacja własności ziemi. Istnieje N obywateli i N działek. Początkowo każda działka jest przekazywana losowemu obywatelowi. Następnie każdego roku każda ziemia jest sprzedawana z pewnym prawdopodobieństwem p, a jeśli rzeczywiście jest sprzedawana, kupujący jest wybierany losowo. Po 50 latach przeprowadzam procedurę „Jubileuszową”, w ramach której niektóre ziemie są zwracane pierwotnym właścicielom, jeśli ci właściciele obecnie nie mają ziemi. Liczę obywateli bez ziemi (y) po każdym Jubileuszu (t). Z pewnością y (t) nie rośnie. Chcę pokazać, że zmniejsza się w przewidywalnym tempie i zbliża się do zera
Erel Segal-Halevi
Wydaje mi się, że powinieneś opracować reprezentację statystyczną i (średnia, mediana itp.). B.AB
Bill Barth,
2
Rozważ model z N + 1 różnymi gatunkami gdzie , co oznacza koncentrację właścicieli ziemskich z działkami. Teraz możesz zastosować teorię kinetyki chemicznej do swojego problemu. n = 0 N nxnn=0Nn
Deathbreath,
Bill: Czy masz na myśli, że powinienem obliczyć A i B wiele razy, a następnie zgłosić średnią i std? Myślę, że lepszym podejściem jest wykonanie pojedynczej regresji liniowej dla wszystkich próbek ze wszystkich symulacji. Ale ile razy powinienem uruchomić symulację?
Erel Segal-Halevi

Odpowiedzi:

5

Próbujesz dopasować prawo mocy do swojej dystrybucji. Bardzo interesujące. Pojawiają się one cały czas w teorii grafów , sieciach społecznościowych i wielu innych miejscach.

Tu i tutaj znajdziesz kilka samouczków na temat dopasowywania danych .

Ponadto, w odniesieniu do pytania A., w jaki sposób prawdopodobieństwo zakupu ziemi przez osobę zależy od tego, ile ona już posiada? Możesz użyć modelu Barbasi, aby wyjaśnić, dlaczego prawo energetyczne jest rozsądnie dostosowane do twoich danych.

aktualizacja: Użyłem tego i działa świetnie: https://pypi.python.org/pypi/powerlaw

dranxo
źródło
+1 dla wszystkich linków! Myślałem również o prawie mocy, ale jego prosta forma (y = A t ^ k) nie pociąga za sobą formy, którą znalazłem, ze względu na stałą B (y = (A t + B) ^ - 1). Czy istnieje bardziej ogólna forma?
Erel Segal-Halevi
Jeśli chcesz opisać kształt krzywej, powinieneś uwzględnić czynniki i przesunąć je przed dopasowaniem prawa mocy. Fakt, że masz B, nie ma związku z kształtem krzywej.
dranxo
Przepraszam, nie zrozumiałem cię, co masz na myśli przez „to powinieneś wziąć pod uwagę i zmienić”?
Erel Segal-Halevi
Ustaw x = t + B / A. Następnie (At + B) ^ {- 1} = (A * x) ^ {- 1}, który jest formą w linkach.
dranxo
1
tuvalu.santafe.edu/~aaronc/courses/7000/csci7000-001_2011_L3.pdf
dranxo,
7

Kilka przemyśleń na twoje pytanie:

  • Sposób zgłaszania dopasowania modelu zależy w dużej mierze od odbiorców i dziedziny. Na przykład w mojej dziedzinie statystyki dopasowania modelu, takie jak R ^ 2, są bardzo rzadko zgłaszane - nie są uważane za imponujące ani szczególnie przydatne. Zamiast tego niektóre kryteria dotyczące sposobu dotarcia do modelu, do którego doszedłeś, wydają się być opisywane, a następnie raportujesz wyniki swojego modelu - wszyscy zakładamy, że faktycznie pasujesz do modelu poprawnie.
  • „Zdarzyło mi się w tej formie” to złe wytłumaczenie. Naprawdę zły. Pomimo zamiłowania do historii o przypadkowym geniuszu, takich jak odkrycie penicyliny lub chininy, „ślepe, głupie szczęście” nie jest wiarygodnym procesem naukowym. Na przykład wykazałeś, że ten formularz dobrze pasuje do twoich danych, ale jeszcze nie pokazałeś, że najlepiej pasuje do twoich danych. Sam R ^ 2 nie jest wystarczającą miarą do oceny, jak dobrze twój model pasuje do danych. Zobacz kwartet Anscombe .
  • Jak wspomniano @rcompton, wygląda na to, że próbujesz dopasować rozkład prawa energetycznego nie wiedząc o tym, ale nawet jeśli uda ci się dobrze dopasować prawo energetyczne, naprawdę najlepiej jest znaleźć jakiś powód, dla którego uważasz, że jest to prawo energetyczne . Może być wystarczające wykreślenie Y w czasie, przejście do CrossValidated (lub kolegium / departamentu bardziej komfortowego ze statystykami) i systematyczne przeglądanie dystrybucji, które mogą dać ci mniej więcej taki wygląd. Istnieją inne niż rozkład prawa mocy, które mogą dać ci lepsze dopasowanie.
Fomite
źródło
+1 za wgląd. „systematycznie przeglądaj dystrybucje, które mogą dać z grubsza taki wygląd”. - gdzie mogę je znaleźć?
Erel Segal-Halevi
@ErelSegalHalevi Możesz zacząć od CrossValidated, tej strony siostrzanej, która dotyczy statystyk i analizy danych.
Fomite,