Wiem, może to zabrzmieć nie na temat, ale wysłuchaj mnie.
W Stack Overflow i tutaj otrzymujemy głosy na posty, wszystko to jest przechowywane w formie tabelarycznej.
Na przykład:
post id identyfikator wyborcy typ głosowania datetime ------- -------- --------- -------- 10 1 2 2000-1-1 10:00:01 11 3 3 2000-1-1 10:00:01 10 5 2 2000-1-1 10:00:01
... i tak dalej. Głosowanie typu 2 to głosowanie pozytywne, głosowanie typu 3 to głosowanie negatywne. Możesz przesłać anonimową wersję tych danych na stronie http://data.stackexchange.com
Istnieje przekonanie, że jeśli post osiągnie wynik -1 lub niższy, bardziej prawdopodobne jest, że zostanie on oceniony. Może to być po prostu uprzedzenie potwierdzające lub może być zakorzenione.
Jak przeanalizowalibyśmy te dane, aby potwierdzić lub zaprzeczyć tej hipotezie? Jak zmierzylibyśmy efekt tego błędu?
Odpowiedzi:
Możesz użyć modelu wielostanowiskowego lub łańcucha Markowa (pakiet MSM w R jest jednym ze sposobów, aby je dopasować). Następnie możesz sprawdzić, czy prawdopodobieństwo przejścia od -1 do 0 jest większe niż od 0 do 1, 1 do 2 itd. Możesz także spojrzeć na średni czas w -1 w porównaniu do innych, aby sprawdzić, czy jest on krótszy .
źródło
Przeprowadzić eksperyment. Każdego dnia losowo oceniaj połowę nowych postów o określonej godzinie.
źródło
Podsumowanie mojej odpowiedzi. Lubię modelowanie łańcucha Markowa, ale brakuje mu aspektu „czasowego”. Z drugiej strony, skupienie się na aspekcie czasowym (np. Średni czas przy ) pomija aspekt „przejścia”. Chciałbym przejść do następującego ogólnego modelowania (które przy odpowiednim założeniu może prowadzić do [procesu Markowa] [1]). Poza tym za tym problemem kryje się wiele „cenzurowanych” statystyk (co z pewnością jest klasycznym problemem niezawodności oprogramowania?). Ostatnie równanie mojej odpowiedzi daje oszacowanie maksymalnego prawdopodobieństwa intensywności głosowania (w górę z „+” i dow z „-”) dla danego stanu głosowania. Jak widać z równania, jest to związek pośredni z przypadkiem, gdy szacujesz jedynie prawdopodobieństwo przejścia i przypadkiem, gdy mierzysz tylko czas spędzony w danym stanie. Mam nadzieję, że to pomoże.−1
Modelowanie ogólne (w celu ponownego sformułowania pytania i założeń). Niech i będą zmiennymi losowymi modelującymi odpowiednio daty głosowania i powiązany znak głosowania (+1 za głosowanie, -1 za głosowanie negatywne). Proces głosowania jest prosty ( S i ) i ≥ 1(VDi)i≥1 (Si)i≥1
Ważna jest tutaj intencja -jump gdzie może być lub a jest dobrą filtracją, w przypadku rodzajów, bez innej wiedzy byłoby to : .ϵ
ale zgodnie z twoim pytaniem, domyślnie zakładasz, że Oznacza to, że dla istnieje sekwencja deterministyczna taki, że .
W ramach tego formalizmu można przekształcić pytanie w następujący sposób: „prawdopodobne jest, że ” (lub przynajmniej różnica jest większa niż podany próg).μ+−1−μ+0>0
Przy takim założeniu łatwo jest wykazać, że jest [jednorodnym procesem markowa] [3] na z generatorem podanym przezYt Z Q
Odpowiedź na pytanie (poprzez zaproponowanie oszacowania maksymalnego prawdopodobieństwa dla problemu statystycznego) Na podstawie tej przeformułowania rozwiązanie problemu odbywa się poprzez oszacowanie i zbudowanie testu na podstawie jego wartości. Naprawmy i zapomnijmy indeks bez utraty ogólności. Oszacowania (i ) można dokonać przed obserwacją(μ+i) i μ+ μ−
Jeśli zapomnisz przypadek z ostatnim stanem obserwacji, wspomniane pary otrzymają rozkład zależny od i : jest on dystrybuowany jako (gdzie Exp jest losową odmianą rozkładu wykładniczego, a wynosi + lub -1 w zależności od tego, kto zrealizuje maksimum). Następnie możesz użyć następującego prostego lematu (dowód jest prosty): μ - i ( min ( E x p ( μ + i ) , E x p ( μ - i ) ) , η ) ημ+i μ−i (min(Exp(μ+i),Exp(μ−i)),η) η
Lemma Jeśli i , to i .X+⇝Exp(μ+) X−⇝Exp(μ−) T=min(X+,X−)⇝Exp(μ++μ−) P(X+1<X−)=μ+μ++μ−
Oznacza to, że gęstość o jest dane przez: gdzie dla jest funkcją gęstości wykładniczej zmiennej losowej z parametrem . Z tego wyrażenia łatwo jest uzyskać estymator maksymalnego prawdopodobieństwa dla i :f(t,ϵ) (T,η)
Komentarze do bardziej zaawansowanych podejść
Jeśli chcesz wziąć pod uwagę przypadki, w których jest ostatnim zaobserwowanym stanem (z pewnością mądrzejszym, ponieważ kiedy przechodzisz przez , często jest to twój ostatni wynik ...), musisz nieco zmodyfikować rozumowanie. Odpowiednia cenzura jest względnie klasyczna ...i −1
Możliwe inne podejście może obejmować
źródło