Model do przewidywania liczby wyświetleń Youtube stylu Gangnam

73

Teledysk PSY „Gangnam style” jest popularny, po nieco ponad 2 miesiącach ma około 540 milionów widzów. Nauczyłem się tego od moich czternastu dzieci podczas obiadu w zeszłym tygodniu i wkrótce dyskusja poszła w kierunku, czy można było przewidzieć, ilu widzów będzie za 10-12 dni i kiedy (/ jeśli) piosenka przejdzie 800 milionów widzów lub 1 miliard widzów.

Oto zdjęcie z liczby widzów, odkąd zostało opublikowane: PSY OGS

Oto zdjęcie wielu widzów teledysków No1 „Justin Biever-Baby” i No2 „Eminem - Love the way lying”, które są dostępne już od dłuższego czasu Justin Eminem

Moja pierwsza próba uzasadnienia tego modelu polegała na tym, że powinna to być krzywa S, ale wydaje się, że nie pasuje to do piosenek No1 i No2, a także nie pasuje, że nie ma ograniczenia liczby wyświetleń tego teledysku może mieć tylko wolniejszy wzrost.

Więc moje pytanie brzmi: jakiego modelu powinienem użyć, aby przewidzieć liczbę widzów teledysku?

FredrikD
źródło
21
+1 za zarządzanie rozmową przy stole obiadowym z Gangnam do statystyk. Potrzebujemy ludzi takich jak Ty!
Stephan Kolassa
4
Mogę dodać do dyskusji, że mam nadzieję, że przyda się gui11aume lub innym, którzy piszą równania, aby spróbować to wymodelować, to że w przykładzie KONY grupowanie geograficzne było istotnym aspektem rozprzestrzeniania się wirusa. Fakt, że PSY jest najpierw zjawiskiem koreańskim, a następnie azjatyckim, jest ważną częścią tej historii. Nie jestem pewien, jak dokładnie to zostanie wymodelowane, ale może to być wskazówka.
Dane dotyczące wyświetleń, komentarzy, polubień i nielubień wideo w listopadzie 2012 r. Można znaleźć na docs.google.com/spreadsheet/…
FredrikD,

Odpowiedzi:

38

Aha, doskonałe pytanie !!

Naiwnie zaproponowałbym również krzywą logistyczną w kształcie litery S, ale jest to oczywiście słabe dopasowanie. O ile mi wiadomo, stały wzrost jest przybliżony, ponieważ YouTube liczy unikalne wyświetlenia (jedno na adres IP), więc nie może być więcej wyświetleń niż komputery.

x(t)y(t)tXY

x˙(t)=r1(x(t)+y(t))(Xx(t))
y˙(t)=r2(x(t)+y(t))(Yy(t)),

r1>r2Yy

x˙(t)=r1x(t)(Xx(t))
y˙(t)=r2x(t),

r1>r2Yy(t)r2

Ten system rozwiązuje

x(t)=XC1eXr1t1+C1eXr1t
y(t)=r2x(t)dt+C2=r2r1log(1+C1eXr1t)+C2,

C1C2x(t)+y(t)

0600,000,000x(t)y(t)

x˙(t)=r1x(t)(Xx(t))
y˙(t)=r2,

i rozwiązuje

x(t)=XC1eXr1t1+C1eXr1t
y(t)=r2t+C2.

x(0)=1t=0C1=1X11XXC2=y(0)C2=0Xr1r2

X=600,000,000r1=3.6671010r2=1,000,000

model wzrostu w stylu Gangnam

Aktualizacja: Z zebranych komentarzy wynika, że ​​Youtube liczy wyświetlenia (w tajny sposób), a nie unikalne adresy IP, co robi dużą różnicę. Powrót do deski kreślarskiej.

Upraszczając, załóżmy, że widzowie są „zarażeni” filmem. Wracają, aby oglądać to regularnie, dopóki nie usuną infekcji. Jednym z najprostszych modeli jest SIR (Susceptible-Infected-Resistant), który jest następujący:

S˙(t)=αS(t)I(t)
I˙(t)=αS(t)I(t)βI(t)
R˙(t)=βI(t)

αβx(t)x˙(t)=kI(t)k

W tym modelu liczba wyświetleń gwałtownie rośnie po pewnym czasie od początku infekcji, czego nie ma w oryginalnych danych, być może dlatego, że filmy rozprzestrzeniają się również w sposób niezawirusowany (lub memowy). Nie jestem ekspertem w szacowaniu parametrów modelu SIR. Po prostu grając z różnymi wartościami, oto co wymyśliłem (w R).

S0 = 1e7; a = 5e-8; b = 0.01 ; k = 1.2
views = 0; S = S0; I = 1;
# Exrapolate 1 year after the onset.
for (i in 1:365) {
   dS = -a*I*S;
   dI = a*I*S - b*I;
   S = S+dS;
   I = I+dI;
   views[i+1] = views[i] + k*I 
}
par(mfrow=c(2,1))
plot(views[1:95], type='l', lwd=2, ylim=c(0,6e8))
plot(views, type='n', lwd=2)
lines(views[1:95], type='l', lwd=2)
lines(96:365, views[96:365], type='l', lty=2)

Ekstrapolacja wyświetleń filmu Youtube w stylu Gangnam

Model nie jest oczywiście idealny i można go uzupełnić na wiele sposobów. Ten bardzo przybliżony szkic przewiduje miliard wyświetleń w okolicach marca 2013 r. Zobaczmy ...

gui11aume
źródło
5
(+1) Jako pierwsze podejście. Pamiętaj, że polityka YouTube dotycząca liczenia wyświetleń nie jest dobrze zrozumiała, biorąc pod uwagę, że nie podali swojego algorytmu do wiadomości publicznej. Mówią tylko: „Wyświetlenie jest liczone za każdym razem, gdy ktoś ogląda film w YouTube. Nie podajemy bardziej szczegółowych informacji, aby uniknąć prób sztucznego zawyżenia liczby wyświetleń” (patrz) .
3
@FredrikD dzięki. Nadal możesz usunąć „zaakceptuj” w marcu 2013 r., Jeśli się mylę: D
gui11aume
2
Oszacowanie parametrów modelu SIR, patrz rsfs.royalsocietypublishing.org/content/2/2/156.full
FredrikD
1
Wygląda na to, że go stracę! Mogą trafić do miliona jeszcze przed 2013 rokiem ...
gui11aume
2
engadget.com/2012/12/21/gangnam-style-one-billion-views Tak więc świat się nie skończył, ale dziś trafiono 1 miliard wyświetleń.
DanTheMan
5

Prawdopodobnie najczęstszym modelem prognozowania przyjęcia nowego produktu jest model dyfuzji basu , który - podobnie jak odpowiedź @ gui11aume - modeluje interakcje między obecnymi i potencjalnymi użytkownikami. Przyjęcie nowego produktu jest dość gorącym tematem w prognozowaniu, wyszukiwanie tego terminu powinno dostarczyć mnóstwo informacji (które niestety nie mam czasu na rozwinięcie tutaj ...).

Stephan Kolassa
źródło
tak, to także model kandydujący. Wydaje się jednak, że zakłada się, że użytkownik może być tylko raz. Tutaj oglądasz wideo wiele razy, jeśli jesteś „zainfekowany”.
FredrikD,
1
@FredrikD: punkt zajęty. (Chociaż osobiście nie udało mi się usiąść choćby przez jedno „użycie” tego „produktu” ...) Powinny istnieć uogólnienia basu, aby sobie z tym poradzić. (Bezwstydna wtyczka :) W przyszłym roku Międzynarodowe Sympozjum Prognoz odbędzie się w Seulu, więc każdy powinien rozważyć zaprezentowanie tam swojego ulubionego modelu prognozowania Gangnam! ;-)
Stephan Kolassa
4

Spojrzałbym na krzywą wzrostu Gompertza .

Krzywa Gompertza jest 3-parametrowym (a, b, c) wzorem podwójnie wykładniczym z czasem, T, jako zmienną niezależną.

Kod R:

gompertz_growth <- function(a=a,b=b,c=c, t) { a*exp(b*exp(c*t)) }

Formuła wzrostu Gompertza jest znana z tego, że dobrze opisuje wiele zjawisk cyklu życia, w których początkowo wzrost przyspiesza, a następnie zwęża się, co skutkuje asymetryczną krzywą sigmoidalną, której pochodna jest bardziej stroma po lewej niż po prawej stronie piku. Na przykład łączna liczba artykułów na Wikipedii, która ma również charakter wirusowy, od wielu lat podąża za krzywą wzrostu Gompertza (z pewnymi parametrami a, b, c) od wielu lat.

Wykres krzywych Gompertza: całkowity rozmiar i jego pochodna stopy wzrostu

Edycja: Jeśli krzywa Gompertza nie wystarcza do przybliżenia kształtu, którego szukasz, możesz dodać parametry di θ zgodnie z opisem w Exponentaited Uogólniony rozkład Weibulla Gompertza . Zauważ, że ten papier używa xzamiast tniezależnego parametru czasu. Co ciekawe, Wikipedia zmodyfikowała również swoje najlepsze przybliżenie, dodając jeden czwarty parametr d, aby uwzględnić rozbieżność prognoz od rzeczywistej wartości po 2012 r . Zmodyfikowana 4-paramowa formuła krzywej Gompertza to:

gompertz_2 <- function(a=A,b=B,c=C,d=D, t) {a * exp(b * exp(c*t) + d*t)}

Funkcja Gompertza nosi imię Benjamina Gompertza (1779–1865) , współczesnego Gaussa (zaledwie 2 lata młodszego Gaussa), pierwszego matematyka, który to opisał.

arielf
źródło
Słuszna uwaga! Jednak wyzwaniem dla tego modelu jest to, że nie wydaje się być ograniczeniem (patrz No1 i No2). Oznacza to, że współczynnik a w modelu również rośnie z czasem.
FredrikD,
Rzuciłbym wyzwanie „Wydaje się, że nie ma limitu”. Czy styl Gangnam może osiągnąć 1B? 10B? 100B? wyświetlenia? ostatecznie tempo wzrostu zbliża się do zera i plateau krzywej. Trudno to dostrzec, kiedy jesteś w fazie wysokiego wzrostu, tak jak teraz jesteśmy z Gangnam, ale poczekaj kilka lat, a wygrasz Gompertz :) Sztuką jest oczywiście znalezienie właściwego rozwiązania (a, b, c) parametry dla tego konkretnego przypadku.
arielf
2
Oto odniesienie do oszacowania parametrów modelu Gompertza, patrz weibull.com/RelGrowthWeb/…
FredrikD,
3

Myślę, że trzeba oddzielić zjawiska, takie jak Gangnam Style, który wiele swoich poglądów zawdzięcza byciu memem / wirusem, od Justina Biebera i Eminema, którzy są wielkimi artystami i którzy rozprzestrzeniliby się szeroko w tradycyjnym otoczeniu - JB lub Eminem też sprzedaliby wiele singli, nie jestem pewien, czy PSY.

abaumann
źródło
Słuszna uwaga. Po przeczytaniu i wysłuchaniu wywiadów PSY i zespołu stojącego za „OGS” (Oppa Gangnam Style), jasne jest, że doskonale wiedzą, który przycisk nacisnąć, aby stworzyć coś wirusowego. Po analizie obrazu powyższego obrazu wyświetleń wydaje się, że liczba wyświetleń jest liniowa do około 90 dni po uruchomieniu, następnie PSY pojawia się na Grand Prix Korei, a liczba wyświetleń na jednostkę czasu wzrasta.
FredrikD
- a czym te dwie klasy różnią się od „klasyki” - piosenek, które prawdopodobnie były dobrze znane, gdy zostały po raz pierwszy przesłane na YouTube (chyba David Bowie)?
abaumann
2

OK, chłopaki, potrzebujemy stylizowanych faktów na temat rozpowszechniania filmów z YouTube'a, które okazują się sugerować wzorce różniące się od zwykłej literatury dotyczącej rozpowszechniania produktów. Dobrym miejscem do rozpoczęcia jest Meeyoung Cha, Haewoon Kwak, Pablo Rodriguez, Yong-Yeol Ahn i Sue Moon, 2007, I Tube, You Tube, Everybody Tubes: Analiza największego na świecie systemu generowania treści wideo przez użytkowników, materiały z 7. ACM SIGCOMM konferencja na temat pomiaru Internetu, ISBN: 978-1-59593-908-1.

i

X Cheng, C Dale, J Liu, 2008, Statystyka i sieć społecznościowa filmów z youtube, w toku międzynarodowych warsztatów na temat jakości usług (IWQoS), Enschede, Holandia, czerwiec.

ProfRoy47
źródło
5
Witamy na stronie, @ ProfRoy47. Czy mógłbyś nieco rozwinąć ten post? Nie jest jasne, czy tak naprawdę jest to odpowiedź na pytanie OP / czy jest całkiem samodzielny. OTOH, to nie zmieściłoby się jako komentarz, i myślę, że ma wkład w pomocny wkład w ten wątek. Nasze FAQ zawiera dyskusje na temat odpowiedzi na CV, które mogą być dla Ciebie pomocne.
gung
1

Model nie jest oczywiście idealny i można go uzupełnić na wiele sposobów. Ten bardzo przybliżony szkic przewiduje miliard wyświetleń w okolicach marca 2013 r. Zobaczmy ...

Patrząc na spowolnienie wyświetleń w ciągu ostatniego tygodnia, data 13 marca wygląda na przyzwoity zakład. Większość nowych widoków wydaje się być zainfekowanymi użytkownikami, którzy wracają wiele razy dziennie.

Jeśli chodzi o uzupełnienie modelu, jedną z metod stosowanych przez naukowców do śledzenia rozprzestrzeniania się wirusa jest monitorowanie jego mutacji genomu - kiedy i gdzie zmutowany może pokazać badaczom, jak szybko wirus jest przenoszony i rozprzestrzeniany (patrz śledzenie wirusa Zachodniego Nilu w USA) .

W sensie praktycznym filmy takie jak Gangnam Style i Party Rock Anthem (grupy LMFAO) częściej „mutują” się w parodie, flash moby, tańce weselne, remiksy i inne reakcje wideo niż powiedzmy, Baby Justina Biebera lub piosenki Eminema.

Badacze mogli przeanalizować liczbę odpowiedzi wideo (w szczególności parodie) jako dane zastępcze dla mutacji. Przydatny może być pomiar częstotliwości i popularności tych mutacji na wczesnym etapie życia filmu, modelowanie jego wyświetleń w YouTube w ciągu całego życia.

lucasng
źródło
Witamy na stronie @lucasng. CV jest przeznaczone na poważne, oparte na faktach odpowiedzi na merytoryczne pytania (możesz przeczytać nasze często zadawane pytania ) i myślę, że OP o to pytał. Twoja odpowiedź znajduje się tutaj na granicy; Myślę, że powinien opierać się na swoich pomysłach na temat mutacji itp., Ale zauważ, że opinie na temat zalet tych filmów nie są tak naprawdę niemądre.
gung
Myślę, że pomysł jest dobry. @gung To prawda, że ​​nie jest to odpowiedź na PO, ale druga odpowiedź też nie jest.
gui11aume
@gung: (Wyszukiwarka Google sugeruje, że) Lucasng nie wypowiadał się w części, którą redagowałeś, ale raczej cytował nazwę grupy, która wykonuje piosenkę!
kardynał
1
@ kardynał, dziękuję za zgłoszenie się. Lucasng, przepraszam za zamieszanie; Przywróciłem nazwę grupy.
gung