Jak korzystać ze statystyk CDF i PDF do analizy

12

To może być zbyt ogólne pytanie, ale mam nadzieję, że znajdę tutaj pomoc. Zaczynam pracę RA na mojej uczelni, a mój temat będzie związany z analizą ruchu w Internecie. Jestem całkiem nowy w świecie analiz, ale sądzę, że w świecie badań to właśnie muszę robić dużo.

Przejrzałem kilka artykułów i w wielu z nich używam gęstości prawdopodobieństwa (PDF), CDF, CCDF itp., Aby wyjaśnić uzyskane wyniki. Na przykład PDF z czasem trwania sesji użytkownika, CDF bajtów przesyłanych każdego dnia itp. Wziąłem klasę prawdopodobieństwa i statystyki, więc rozumiem, co to jest, ale nadal jestem zdezorientowany przypadkami, w których taka reprezentacja byłaby wybrana.

Więc jeśli jest ktoś, kto robi takie wykresy i analizy (w jakimkolwiek innym temacie ogólnie lub w tym), czy mógłbyś mi powiedzieć po prostu, w jakiej sytuacji użyłbym jednej z tych reprezentacji

czynnik
źródło

Odpowiedzi:

17

Częściowo jest to kwestia gustu i konwencji, ale teoria, dbałość o twoje cele i odrobina neuronauki poznawczej [patrz referencje] mogą dostarczyć pewnych wskazówek.

Ponieważ pdf i cdf przekazują te same informacje, różnica między nimi wynika z tego , jak to robią: pdf reprezentuje prawdopodobieństwo z obszarami, podczas gdy cdf reprezentuje prawdopodobieństwo z (pionowymi) odległościami . Badania pokazują, że ludzie porównują odległości szybciej i dokładniej niż porównują obszary i że systematycznie błędnie oceniają obszary. Tak więc, jeśli twoim celem jest dostarczenie graficznego narzędzia do odczytywania prawdopodobieństw, powinieneś skorzystać z cdf.

Pdfs i cdfs stanowią również prawdopodobieństwo gęstość : pierwsza ma więc za pomocą wysokości , a drugi oznacza gęstość po stoku . Teraz tabele są odwrócone, ponieważ ludzie są słabymi estymatorami nachylenia (który jest styczną do kąta; zwykle widzimy sam kąt). Gęstości są dobre w przekazywaniu informacji o trybach, ciężarze ogonów i lukach. Korzystaj z plików pdf w takich sytuacjach i wszędzie tam, gdzie należy podkreślić lokalne szczegóły rozkładu prawdopodobieństwa.

Czasami pdf lub cdf zawiera przydatne informacje teoretyczne. Jego wartość (a raczej jej odwrotność) bierze udział w formułach standardowych błędów kwantyli, ekstremów i statystyki rang. W takich sytuacjach wyświetlaj raczej pdf niż cdf. Podczas badania korelacji wielowymiarowych w ustawieniach nieparametrycznych, takich jak kopula , cdf okazuje się bardziej przydatny (być może dlatego, że jest to funkcja, która przekształca ciągłe prawo prawdopodobieństwa w jednolite).

Plik pdf lub cdf może być ściśle powiązany z określonym testem statystycznym. Test Kołmogorowa-Smirnowa (i statystyka KS) ma prostą graficzną reprezentację w postaci pionowego bufora wokół cdf; nie ma prostej reprezentacji graficznej w kategoriach pdf (o których wiem).

Plik ccdf (uzupełniający plik cdf) jest używany w specjalnych aplikacjach, które koncentrują się na przeżyciu i rzadkich zdarzeniach. Jego stosowanie jest zwykle ustalane umownie.

Bibliografia

WS Cleveland (1994). Elementy wykresów danych. Summit, NJ, USA: Hobart Press. ISBN 0-9634884-1-4

BD Dent (1999). Kartografia: Projekt mapy tematycznej 5. edycja. Boston, MA, USA: WCB McGraw-Hill.

AM MacEachren (2004). Jak działają mapy. Nowy Jork, NY, USA: The Guilford Press. ISBN 1-57230-040-X

Whuber
źródło
(+1), zwłaszcza za wgląd w interpretację odległości względem obszarów i nachylenia względem wysokości.
steffen
8

Zgadzam się z odpowiedzią Whubera, ale mam jeszcze jedną drobną kwestię:

CDF ma prosty nieparametryczny estymator, który nie wymaga żadnych wyborów: empirycznej funkcji rozkładu . Oszacowanie pliku PDF nie jest takie proste. Jeśli używasz histogramu, musisz wybrać szerokość pojemnika i punkt początkowy dla pierwszego pojemnika. Jeśli używasz szacowania gęstości jądra , musisz wybrać kształt jądra i przepustowość. Podejrzany lub cyniczny czytelnik może zastanawiać się, czy naprawdę wybrałeś je całkowicie a priori, czy też wypróbowałeś kilka różnych wartości i wybrałeś te, które dały wynik, który najbardziej Ci się podobał.

To jednak tylko drobna kwestia. Te, które zostały zrobione, są ważniejsze, więc prawdopodobnie użyłbym tego tylko, aby wybrać, kiedy nadal nie byłem zdecydowany po ich rozważeniu.

jeden przystanek
źródło
To wciąż ciekawy punkt. Dzięki, że o tym wspomniałeś.
whuber
2

Myślę, że to zależy od tego, jakie statystyki lub ustalenia znajdziesz, badasz, analizujesz lub raportujesz. Zakładam, że prawdopodobnie użyjesz tych wykresów do przedstawienia wyników swojego uniwersyteckiego tematu, prawda?

Na przykład, jeśli chcesz przedstawić swoje odkrycie na temat powiedzenia: „Jak długo użytkownicy pozostają na określonej stronie internetowej”, dobrze jest pokazać to w CDF, ponieważ pokazuje skumulowany czas spędzony na tej stronie, za pośrednictwem stron itp. .

Z drugiej strony, jeśli chcesz po prostu pokazać prawdopodobieństwo kliknięcia łącza reklamowego przez użytkownika (np. Link Google AdWords), możesz przedstawić go w formacie PDF, ponieważ prawdopodobnie będzie to normalna krzywa dzwonka dystrybucji i możesz pokazać prawdopodobieństwo tego heppeningu.

Mam nadzieję, że to pomaga, Jeff


źródło