Po pierwsze, nie jestem statystykiem. Jednak robiłem analizę sieci statystycznej dla mojego doktoratu.
W ramach analizy sieci przedstawiłem komplementarną funkcję skumulowanego rozkładu (CCDF) stopni sieciowych. Odkryłem, że w przeciwieństwie do konwencjonalnych dystrybucji sieciowych (np. WWW), dystrybucję najlepiej dopasowuje rozkład logarytmiczny. Próbowałem dopasować ją do prawa mocy i używając skryptów Matlaba autorstwa Clauset et al. Odkryłem, że ogon krzywej podąża za prawem mocy z odcięciem.
Linia przerywana oznacza dopasowanie prawa mocy. Fioletowa linia reprezentuje log-normalne dopasowanie. Zielona linia reprezentuje dopasowanie wykładnicze.
Próbuję zrozumieć, co to wszystko znaczy? Przeczytałem ten artykuł Newmana, który lekko porusza ten temat: http://arxiv.org/abs/cond-mat/0412004
Poniżej moje dzikie przypuszczenie:
Jeśli rozkład stopni jest zgodny z rozkładem prawa mocy, rozumiem, że oznacza to liniowe preferencyjne przywiązanie w rozkładzie łączy i stopniu sieci (bogaty uzyskuje bogatszy efekt lub proces Yulesa).
Czy mam rację mówiąc, że przy logarytmicznym rozkładzie, którego doświadczam, na początku łuku występuje subliniowe przywiązanie preferencyjne i staje się bardziej liniowe w kierunku ogona, gdzie można je dopasować za pomocą prawa mocy?
Ponadto, ponieważ rozkład logarytmiczno-normalny występuje, gdy logarytm zmiennej losowej (powiedzmy X) jest normalnie rozkładany, oznacza to, że w logarytmicznym rozkładzie normalnym jest więcej małych wartości X i mniej dużych wartości X niż czy zmienna losowa występująca po rozkładzie prawa mocy miałaby?
Co ważniejsze, jeśli chodzi o rozkład stopnia sieci, czy normalne logarytmiczne przywiązanie preferencyjne nadal sugeruje sieć pozbawioną skali? Instynkt podpowiada mi, że skoro ogon krzywej może być dopasowany przez prawo mocy, sieć może nadal zostać uznana za wykazującą cechy pozbawione skali.
źródło
Odpowiedzi:
Myślę, że pomocne będzie podzielenie pytania na dwie części:
Drugie pytanie jest trudniejsze. Jak zauważyli niektórzy w powyższych komentarzach, istnieje wiele mechanizmów, które wytwarzają rozkłady mocy i preferencyjne przywiązanie (we wszystkich jego odmianach i chwale) jest tylko jednym z wielu. Zatem obserwowanie rozkładu prawa mocy w twoich danych (nawet prawdziwym, który przechodzi niezbędne testy statystyczne) nie jest wystarczającym dowodem, aby stwierdzić, że proces generowania był preferencyjnym przywiązaniem. Lub, bardziej ogólnie, jeśli masz mechanizm A, który wytwarza pewien wzorzec X w danych (np. Rozkład logarytmiczno-normalny w sieci). Obserwacja wzorca X w twoich danych nie jest dowodem na to, że twoje dane zostały wygenerowane przez mechanizm A. Dane są zgodne z A, ale to nie znaczy, że A jest właściwym mechanizmem.
Aby naprawdę pokazać, że odpowiedź A jest odpowiedzią, musisz bezpośrednio przetestować jej założenia mechanistyczne i wykazać, że dotyczą one również twojego systemu, a najlepiej także pokazać, że inne prognozy dotyczące mechanizmu również przechowują dane. Naprawdę świetny przykład części dotyczącej testowania założeń został wykonany przez Sid Rednera (patrz ryc. 4 tego artykułu ), w którym wykazał, że w przypadku sieci cytowań, liniowe preferencyjne przywiązanie faktycznie obowiązuje w danych.
Wreszcie termin „sieć bez skalowania” jest przeciążony w literaturze, dlatego zdecydowanie zalecam unikanie go. Ludzie używają go w odniesieniu do sieci z rozkładem stopni mocy prawa ido sieci wyhodowanych przez (liniowe) preferencyjne przywiązanie. Ale jak właśnie wyjaśniliśmy, te dwie rzeczy nie są takie same, więc użycie jednego terminu w odniesieniu do obu jest po prostu mylące. W twoim przypadku rozkład log-normal jest całkowicie niespójny z klasycznym mechanizmem liniowego preferencyjnego przyłączania, więc jeśli zdecydujesz, że log-normal jest odpowiedzią na pytanie 1 (w mojej odpowiedzi), oznacza to, że twoja sieć nie jest „ w tym sensie dowolna skala. W tym przypadku fakt, że górny ogon jest „w porządku” jako rozkład mocy, byłby bez znaczenia, ponieważ zawsze istnieje pewna część górnego ogona dowolnego rozkładu empirycznego, który przejdzie ten test (i przejdzie, ponieważ test traci moc, gdy nie ma zbyt wielu danych, co dzieje się w skrajnym górnym ogonie).
źródło
Takie fajne pytanie. Prowadzę powiązaną rozmowę na ten temat z pytaniem, które zadałem w innym miejscu na CrossValidated. Tam zapytałem, czy rozkład gamma jest dobrym rozkładem do zastosowania w symulacji sieci społecznościowej, w której prawdopodobieństwo powiązania jest endogeniczne dla jakiejś ciągłej „popularności” charakterystycznej dla węzłów. @NickCox zasugerował, żebym zamiast tego używał rozkładu logarytmicznego. Odpowiedziałem, że rozkład logarytmiczny ma pewne teoretyczne uzasadnienie jako podstawowy proces opisujący popularność, ponieważ popularność można interpretować jako iloczyn wielu zmiennych losowych o dodatniej wartości (np. Bogactwa, dochodu, wzrostu, sprawności seksualnej, sprawności walki, iloraz inteligencji). Ma to dla mnie więcej sensu niż teoretyczne uzasadnienie prawa potęgi i jest ono sprzeczne z danymi empirycznymi, które sugerują, że kształt prawa potęgi jest zbyt mało elastyczny, aby wyjaśnić zróżnicowanie międzysieciowe rozkładu stopni. Lognormal, dla porównania ma bardzo elastyczny kształt, a tryb zbliża się do zera dla dużej wariancji. Ponadto sensowne jest, że skośność rozkładu stopni powinna wzrastać wraz z wariancją ze względu na preferencyjny efekt przywiązania.
Podsumowując, uważam, że rozkład logarytmiczno-normalny najlepiej pasuje do twoich danych, ponieważ rozkład lognormalny opisuje proces leżący u podstaw tworzenia rozkładu stopni lepiej niż prawo mocy lub rozkłady wykładnicze.
źródło
Wchodzę na tę stronę po zliczeniu moich rozkładów bąbelków i użyciu prawa mocy dla danych lepkości.
Przejrzenie przykładowych zestawów danych w dokumencie prawa energetycznego autorstwa Clauset i in. przedstawili prawdziwe horrory zestawów danych, dalekie od zestawów danych prawa mocy, aby poprzeć ich argumenty. Tylko ze zdrowego rozsądku z pewnością nie próbowałbym dopasować funkcji prawa mocy do całego zakresu danych dla większości z nich. Jednak zachowanie samoskalujące w świecie rzeczywistym może być prawidłowe w części obserwowanego systemu, ale może ulec awarii, gdy niektóre właściwości systemu osiągną granicę fizyczną lub funkcjonalną.
Poniższe bardzo czytelne artykuły odnoszą się do dopasowania krzywej wzrostu dla ekologów, z dobrą dyskusją na temat prawa mocy i powiązanych rozkładów, w oparciu o oparte na obserwacjach modele zachowania populacji.
Autor jest znacznie bardziej pragmatyczny niż Clauset i in. Cytując: „... jeśli celem jest tylko najlepsze dopasowanie, a skale poza oknem skali zestawu danych nie są omawiane, każdy model może wystarczyć, biorąc pod uwagę, że daje dobre dopasowanie i nie wytwarza żadnych maksimów ani minimów w badanym oknie skali . ” „Często zmuszony jest dopasować ten sam model, ponieważ inni badacze zastosowali do swoich danych, aby móc porównywać wartości parametrów, ale można to zrobić oprócz zastosowania lepszego modelu lub modeli o lepszych oczekiwaniach kształty lub oba ”. Spokojne słowa.
Tjørve, E. (2003). Kształty i funkcje krzywych obszarowo-gatunkowych: przegląd możliwych modeli. Journal of Biogeography, 30 (6), 827-835.
Tjørve, E. (2009). Kształty i funkcje krzywych obszarowo-gatunkowych (ii): Przegląd nowych modeli i parametryzacji. Journal of Biogeography, 36 (8), 1435-1445.
źródło
Powyższe wyniki pokazują, że rozkład stopni może być zarówno prawem mocy, jak i logarytmem normalnym, co może sugerować, że w badanej sieci współistnieją małe własności o swobodnym zasięgu i skali. Aby sprawdzić, czy sieć jest wolna od skali (ze stałym parametrem skalowania) z preferencyjnym podłączeniem, często wymagany jest projekt eksperymentalny. We wspomnianym wyżej artykule Sid Rednera tempo wzrostu służy zrozumieniu mechanizmu wzrostu. Podczas gdy Gallos, Song i Makse używają pól do pokrycia sieci i dochodzą do wniosku, że rozkład stopnia sieci jest zgodny z rozkładem prawa mocy, jeśli NB (lB) ~ lB ^ -dB. Lub badanie związków między współczynnikiem klastra a stopniem (czy związek spełnia prawo mocy). W przeciwnym razie omawia się, że sieci hierachiczne mają właściwości zarówno małego świata, jak i wolnej skali. (pisanie bez skali fraktalnej,
źródło