Mam pytanie: jak myślisz, jak wygląda rozkład czasu spędzanego dziennie na YouTube?
Moja odpowiedź jest taka, że prawdopodobnie jest on zwykle rozłożony i mocno zniekształcony. Oczekuję, że istnieje jeden tryb, w którym większość użytkowników spędza średnio jakiś czas, a następnie długi prawy ogon, ponieważ niektórzy użytkownicy są przytłaczającymi użytkownikami zaawansowanymi.
Czy to uczciwa odpowiedź? Czy jest lepsze słowo dla tej dystrybucji?
Odpowiedzi:
Ułamek dziennie z pewnością nie jest ujemny. Wyklucza to rozkład normalny, który ma masę prawdopodobieństwa na całej osi rzeczywistej - w szczególności na połowie ujemnej.
Rozkłady prawa władzy są często używane do modelowania takich rzeczy, jak rozkłady dochodów, wielkości miast itp. Są nieujemne i zazwyczaj bardzo wypaczone. To byłyby pierwsze próby modelowania czasu spędzonego na oglądaniu YouTube. (Lub monitorowanie pytań krzyżowych).
Więcej informacji na temat przepisów dotyczących mocy można znaleźć tutaj lub tutaj lub w naszym znaczniku dotyczącym uprawnień .
źródło
Rozkład, który jest normalny, nie jest mocno wypaczony. To jest sprzeczność. Zmienne rozkładane normalnie mają pochylenie = 0.
źródło
Jeśli ma długi prawy ogon, to jest odpowiednio przekrzywiony.
Nie może to być rozkład normalny, ponieważ skośność! = 0, być może jest to rozkład normalny skośny:
https://en.wikipedia.org/wiki/Skew_normal_distribution
źródło
Może to być rozkład log-normalny. Jak wspomniano tutaj :
Podane odniesienia to: Yin, Peifeng; Luo, Ping; Lee, Wang-Chien; Wang, Min (2013). Milczenie jest również dowodem: interpretacja czasu oczekiwania na rekomendację z psychologicznego punktu widzenia. Międzynarodowa konferencja ACM na temat KDD.
źródło
„Czy jest lepsze słowo dla tej dystrybucji?”
Warto tu rozróżnić między używaniem słów do opisania właściwości rozkładu, a próbą znalezienia „nazwy” dla dystrybucji, aby można ją było zidentyfikować jako (w przybliżeniu) instancję określonego rozkładu standardowego: dla której formuła lub mogą istnieć tabele statystyczne dla jego funkcji rozkładu i dla których można oszacować jej parametry. W tym ostatnim przypadku prawdopodobnie używasz nazwanego rozkładu, np. „Normalny / gaussowski” (te dwa terminy są na ogół synonimami), jako modelu, który przechwytuje niektóre kluczowe cechy twoich danych, zamiast twierdzić, że populacja twoich danych to zaczerpnięte z dokładnie tego teoretycznego rozkładu. Aby nieco źle napisać George Box,wszystkie modele są „złe”, ale niektóre są przydatne. Jeśli zastanawiasz się nad podejściem do modelowania, warto zastanowić się, jakie funkcje chcesz zastosować i jak skomplikowany lub oszczędny ma być Twój model.
Będąc pozytywnie pochylona jest przykładem opisującym właściwość, że rozkład ma, ale nie zbliży się do określania, które off-the-shelf dystrybucja jest „” odpowiedni model. Wyklucza to niektórych kandydatów, na przykład rozkład Gaussa (tj. Normalny) ma zerowe pochylenie, więc nie będzie właściwe modelowanie danych, jeśli pochylenie jest ważną cechą. Mogą istnieć również inne właściwości danych, które są dla Ciebie ważne, np. Że są one jednomodalne (ma tylko jeden pik) lub że są ograniczone od 0 do 24 godzin (lub od 0 do 1, jeśli piszesz je ułamkowo dnia) lub że masa prawdopodobieństwa jest skoncentrowana na zerze (ponieważ są ludzie, którzy w ogóle nie oglądają youtube w danym dniu).kurtoza . I warto pamiętać, że nawet jeśli twój rozkład miał kształt „garbu” lub „krzywej dzwonowej” i miał pochylenie zerowe lub prawie zerowe, nie wynika automatycznie, że rozkład normalny jest dla niego „poprawny”! Z drugiej strony, nawet jeśli populacja, z której pochodzą twoje dane, faktycznie przypadała dokładnie według określonego rozkładu, z powodu błędu próbkowaniaTwój zestaw danych może nie do końca przypominać. Małe zestawy danych prawdopodobnie będą „hałaśliwe” i może nie być jasne, czy pewne cechy, które widzisz, np. Dodatkowe małe garby lub asymetryczne ogony, są właściwościami populacji, z której dane zostały pobrane (i być może dlatego powinny zostać uwzględnione w twoim modelu) lub czy są to tylko artefakty z konkretnej próbki (i do celów modelowania należy je zignorować). Jeśli masz mały zestaw danych, a pochylenie jest bliskie zeru, wówczas jest prawdopodobne, że rozkład leżący u jego podstaw jest w rzeczywistości symetryczny. Im większy zestaw danych i większy skośność, tym mniej prawdopodobne staje się to - ale chociaż można przeprowadzić test istotności, aby przekonać się, jak przekonujące są dowody świadczące o skośności w populacji, z której został pobrany, może brakować punktu, czy normalny (lub inny rozkład zerowy) jest odpowiedni jako model ...
Jakie właściwości danych naprawdę mają znaczenie dla celów, w których zamierzasz je modelować? Zauważ, że jeśli pochylenie jest dość małe i nie przejmujesz się nim zbytnio, nawet jeśli podstawowa populacja jest naprawdę wypaczona , to może się okazać, że rozkład normalny jest przydatnym modelem do przybliżenia tego prawdziwego rozkładu czasów oglądania. Ale powinieneś sprawdzić, czy to nie kończy się głupimi przewidywaniami. Ponieważ rozkład normalny nie ma najwyższej ani najniższej możliwej wartości, to mimo że ekstremalnie wysokie lub niskie wartości stają się coraz bardziej mało prawdopodobne, zawsze okaże się, że Twój model przewiduje, że pewneprawdopodobieństwo oglądania przez ujemną liczbę godzin dziennie lub ponad 24 godziny. Staje się to bardziej problematyczne, jeśli przewidywane prawdopodobieństwo takich niemożliwych zdarzeń stanie się wysokie. Rozkład symetryczny, taki jak normalny, pozwoli przewidzieć, że jak wiele osób będzie obserwować przez dłuższy czas ponad 50% powyżej średniej, podobnie jak mniej niż 50% poniżej średniej. Jeśli czasy oglądania są bardzo wypaczone, ten rodzaj przewidywania może być tak nieprawdopodobny, że jest głupi, i daje mylące wyniki, jeśli bierzesz wyniki swojego modelu i używasz ich jako danych wejściowych do innych celów (na przykład przeprowadzam symulację czasu oglądania w celu obliczenia optymalnego harmonogramu reklamy). Jeśli skośność jest tak godna uwagi, że chcesz uchwycić ją jako część modelu, toskośny rozkład normalny może być bardziej odpowiedni. Jeśli chcesz uchwycić zarówno skośność, jak i kurtozę, rozważ skośne t . Jeśli chcesz uwzględnić fizycznie możliwe górne i dolne granice, rozważ użycie skróconych wersji tych dystrybucji. Istnieje wiele innych rozkładów prawdopodobieństwa, które mogą być wypaczone i nieimodalne (dla odpowiednich wyborów parametrów), takie jak rozkłady F lub gamma , i ponownie można je obciąć, aby nie przewidywały niemożliwie wysokich czasów oglądania. Dystrybucja betamoże być dobrym wyborem, jeśli modelujesz ułamek dnia spędzonego na oglądaniu, ponieważ jest to zawsze ograniczone od 0 do 1 bez konieczności dalszego obcinania. Jeśli chcesz uwzględnić stężenie prawdopodobieństwa dokładnie na poziomie zerowym ze względu na osoby niebędące obserwatorami, rozważ zbudowanie modelu przeszkodowego .
Ale w momencie, gdy próbujesz wprowadzić każdą funkcję, którą możesz zidentyfikować na podstawie swoich danych, i zbudować coraz bardziej wyrafinowany model, być może powinieneś zadać sobie pytanie, dlaczego to robisz? Czy korzystny byłby prostszy model, na przykład łatwiejsza praca z matematyczną lub posiadająca mniej parametrów do oszacowania? Jeśli obawiasz się, że takie uproszczenie sprawi, że nie będziesz w stanie uchwycić wszystkich właściwości, które Cię interesują, być może żadna dystrybucja „z półki” nie robi tego, co chcesz. Nie jesteśmy jednak ograniczeni do pracy z nazwanymi dystrybucjami, których właściwości matematyczne zostały wcześniej wyjaśnione. Zamiast tego rozważ wykorzystanie danych do zbudowania empirycznej funkcji dystrybucji. Spowoduje to uchwycenie wszystkich zachowań, które były obecne w twoich danych, ale nie możesz już nadać mu nazwy takiej jak „normalna” lub „gamma”, ani nie możesz zastosować właściwości matematycznych, które odnoszą się tylko do określonego rozkładu. Na przykład reguła „95% danych mieści się w zakresie 1,96 odchyleń standardowych od średniej” dotyczy normalnie dystrybuowanych danych i może nie mieć zastosowania do Twojej dystrybucji; należy jednak pamiętać, że niektóre zasady mają zastosowanie do wszystkich dystrybucji, np . co najmniej gwarancje nierówności Czebyszewa75% twoich danych musi mieścić się w dwóch standardowych odchyleniach średniej, niezależnie od pochylenia. Niestety rozkład empiryczny odziedziczy również wszystkie właściwości zestawu danych wynikające wyłącznie z błędu próbkowania, nie tylko te posiadane przez populację podstawową, więc może się okazać, że histogram rozkładu empirycznego zawiera garby i spadki, których sama populacja nie ma . Możesz zbadać wygładzone funkcje rozkładu empirycznego lub jeszcze lepiej, zwiększając wielkość próby.
Podsumowując: chociaż rozkład normalny ma zerowe pochylenie, fakt, że dane są wypaczone, nie wyklucza normalnego rozkładu jako użytecznego modelu, choć sugeruje, że niektóre inne rozkłady mogą być bardziej odpowiednie. Wybierając model, należy wziąć pod uwagę inne właściwości danych, oprócz przekrzywienia, a także rozważyć cele, dla których zamierzasz użyć modelu. Można śmiało powiedzieć, że twoja prawdziwa populacja czasów oglądania nie jest dokładnie zgodna z jakąś znaną, nazwaną dystrybucją, ale to nie znaczy, że taka dystrybucja jest skazana na bycie bezużytecznym jako model. Jednak dla niektórych celów możesz po prostu użyć samego rozkładu empirycznego, zamiast próbować dopasować do niego rozkład standardowy.
źródło
Rozkład gamma może być dobrym kandydatem do opisania tego rodzaju rozkładu na nieujemnych, skośnych danych. Zobacz zieloną linię na obrazku tutaj: https://en.m.wikipedia.org/wiki/Gamma_distribution
źródło
źródło
źródło
Co powiesz na model z przeszkodą?
Model przeszkody składa się z dwóch części. Pierwszym z nich jest eksperyment Bernoulli, który określa, czy w ogóle korzystasz z YouTube. Jeśli nie, to czas użytkowania jest oczywiście zerowy i gotowe. Jeśli to zrobisz, „przejdziesz tę przeszkodę”, wtedy czas użytkowania pochodzi z innej ściśle pozytywnej dystrybucji.
Blisko spokrewnioną koncepcją są modele z napompowaniem zerowym. Mają one na celu radzenie sobie z sytuacją, w której obserwujemy wiązkę zer, ale nie można rozróżnić między zawsze zerami a czasami zerami. Weźmy na przykład liczbę papierosów, które osoba pali codziennie. W przypadku osób niepalących liczba ta wynosi zawsze zero, ale niektórzy palacze mogą nie palić w danym dniu (z papierosów? Podczas długiego lotu?). W przeciwieństwie do modelu z przeszkodami, tutaj rozkład „palaczy” powinien obejmować zero, ale liczby te są „zawyżone” również przez udział osób niepalących.
źródło
Jeśli rozkład jest rzeczywiście „podzbiorem” rozkładu normalnego, należy rozważyć model skrócony. W tym kontekście szeroko stosuje się rodzinę modeli TOBIT.
Zasadniczo sugerują pdf z (dodatnią) masą prawdopodobieństwa przy 0, a następnie „cięcie części rozkładu normalnego” dla wartości dodatnich.
Powstrzymam się od wpisywania formuły tutaj i raczej odsyłam do artykułu w Wikipedii: https://en.wikipedia.org/wiki/Tobit_model
źródło
Normalne rozkłady są z definicji nie wypaczone, więc nie można mieć obu rzeczy. Jeśli rozkład jest przekrzywiony w lewo, to nie może być gaussowski. Musisz wybrać inny! Najbliższą rzeczą, o której mogę pomyśleć, jest:
https://en.wikipedia.org/wiki/Skew_normal_distribution
źródło