Niedawno przeprowadziłem analizę wpływu reputacji na opinie (patrz blog ), a następnie miałem kilka pytań na temat być może bardziej pouczającej (lub bardziej odpowiedniej) analizy i grafiki.
Tak więc kilka pytań (i nie krępuj się odpowiadać każdemu w szczególności i ignoruj pozostałe):
W obecnym wcieleniu nie miałem na myśli wyśrodkowania numeru postu. Myślę, że to robi fałszywe wrażenie negatywnej korelacji na wykresie rozrzutu, ponieważ jest więcej postów w dolnej części liczby postów (widać, że nie dzieje się tak w panelu Jona Skeeta, tylko w śmiertelnych użytkownikach płyta). Czy niewłaściwe jest nie wyśrodkowywanie numeru postu (ponieważ mam na myśli wyśrodkowanie wyniku na średni wynik użytkownika)?
Z wykresów powinno być oczywiste, że wynik jest mocno wypaczony w prawo (a średnie centrowanie tego nie zmieniło). Podczas dopasowywania linii regresji dopasowuję zarówno modele liniowe, jak i model wykorzystujący błędy Hubera-White'a (przez
rlm
w pakiecie MASS R ) i nie miało to żadnego znaczenia w szacunkach nachylenia. Czy powinienem rozważyć przemianę danych zamiast solidnej regresji? Należy pamiętać, że każda transformacja musiałaby uwzględniać możliwość 0 i negatywnych wyników. A może powinienem użyć innego typu modelu do liczenia danych zamiast OLS?Uważam, że dwie ostatnie grafiki można ogólnie ulepszyć (i jest to również związane z ulepszonymi strategiami modelowania). W mojej (zmęczonej) opinii podejrzewałbym, że jeśli efekty reputacji są prawdziwe, zostałyby one zrealizowane dość wcześnie w historii plakatów (przypuszczam, że jeśli to prawda, można je ponownie rozważyć „udzieliłeś doskonałych odpowiedzi, więc teraz będę głosować posty „zamiast efektów„ reputacja według całkowitej liczby punktów ”). Jak mogę stworzyć grafikę, aby zademonstrować, czy to prawda, biorąc pod uwagę nadmierne kreślenie? Pomyślałem, że może dobrym sposobem wykazania tego byłoby dopasowanie modelu formy;
gdzie jest (taki sam, jak w obecnych wykresach rozrzutu), jest , a są zmiennymi obojętnymi reprezentującymi pewien dowolny zakres numerów postów (na przykład jest równy, jeśli numer jest , jest równy, jeśli numer postu jest itp.). i są odpowiednio terminem wielkiego przechwytywania i błędu. Następnie zbadałbym szacunkowe nachylenie aby ustalić, czy efekty reputacji pojawiły się wcześnie w historii plakatów (lub graficznie je pokazały). Czy jest to rozsądne (i właściwe) podejście?X 1 Z 1 ⋯ Z k Z 1 Z 2 β 0 ϵ γscore - (mean score per user)
post number
1
1 through 25
1
26 through 50
Wydaje się popularne, aby dopasować jakiś rodzaj nieparametrycznej linii wygładzania do takich wykresów rozrzutu (takich jak less lub splajny), ale moje eksperymenty z splajnami nie ujawniły niczego oświecającego (jakiekolwiek dowody pozytywnych efektów na wczesnym etapie historii plakatu były niewielkie i temperamentalne do liczby włączonych splajnów). Skoro mam hipotezę, że efekty pojawiają się wcześnie, czy moje podejście do modelowania jest bardziej uzasadnione niż splajny?
Zwróć też uwagę, że chociaż pogłębiłem wszystkie te dane, wciąż istnieje wiele innych społeczności do zbadania (a niektóre takie jak administrator i błąd serwera mają podobnie duże próbki do wyciągnięcia), więc rozsądne jest sugerowanie w przyszłości analiza, w której wykorzystuję próbkę powstrzymującą do zbadania dowolnego związku.
Odpowiedzi:
To odważna próba, ale przy samych tych danych odpowiedź na pytanie badawcze dotyczące „wpływu reputacji na pozytywne opinie” będzie trudna lub niemożliwa . Problem polega na oddzieleniu skutków innych zjawisk, które wymienię wraz z krótkimi wskazówkami, jak można je rozwiązać.
Efekty uczenia się . Wraz ze wzrostem reputacji rośnie doświadczenie; wraz ze wzrostem doświadczenia oczekujemy, że ktoś opublikuje lepsze pytania i odpowiedzi; wraz z poprawą ich jakości oczekujemy większej liczby głosów na post. Można sobie wyobrazić, że jednym ze sposobów poradzenia sobie z tym w analizie byłoby zidentyfikowanie osób aktywnych w więcej niż jednej witrynie SE . Na każdej stronie ich reputacja wzrastałaby wolniej niż ilość ich doświadczenia, zapewniając w ten sposób sposób na rozdarcie reputacji i efektów uczenia się.
Zmiany czasowe w kontekście. Są niezliczone, ale te oczywiste obejmowałyby
Zmiany liczby wyborców w czasie , w tym ogólny trend wzrostowy, trendy sezonowe (często związane z cyklami akademickimi) i wartości odstające (wynikające z reklamy zewnętrznej, takiej jak linki do określonych wątków). Każda analiza musiałaby wziąć to pod uwagę przy ocenie trendów w reputacji każdej osoby .
Zmiany w obyczajach społeczności w czasie . Społeczności oraz ich interakcje, ewolucja i rozwój. Z czasem mogą oni głosować częściej lub rzadziej. Każda analiza musiałaby ocenić ten efekt i uwzględnić go .
Czas sam w sobie. Z biegiem czasu wcześniejsze posty pozostają dostępne do wyszukiwania i nadal gromadzą głosy. Tak więc, caeteris paribus , starsze posty powinny dawać więcej głosów niż nowsze. (Jest to silny efekt: niektóre osoby konsekwentnie wysoko w miesięcznych ligach reputacji nie odwiedzały tej witryny przez cały rok!) To maskowałoby, a nawet odwracało jakikolwiek faktyczny pozytywny efekt reputacji. Każda analiza musi uwzględniać czas, przez jaki każdy post był obecny na stronie .
Popularność przedmiotu Niektóre tagi (np. R ) są znacznie bardziej popularne niż inne. Tak więc zmiany rodzaju pytań, na które dana osoba odpowiada, mogą być mylone ze zmianami czasowymi, takimi jak efekt reputacji. Dlatego każda analiza musi uwzględniać charakter pytań, na które udzielane są odpowiedzi.
Widoki [dodane jako edycja]. Pytania są przeglądane przez różne liczby osób z różnych powodów (filtry, linki itp.). Możliwe jest, że liczba głosów otrzymanych w odpowiedziach jest związana z liczbą wyświetleń, choć można oczekiwać, że liczba wyświetleń spadnie wraz ze wzrostem liczby wyświetleń. (Chodzi o to, ile osób naprawdę zainteresowanych tym pytaniem faktycznie je ogląda, a nie surową liczbę. Moje własne - anegdotyczne - doświadczenie polega na tym, że mniej więcej połowa głosów, które otrzymuję na wiele pytań, przypada na pierwsze 5-15 widoki, chociaż pytania są oglądane setki razy.) Dlatego każda analiza musi uwzględniać liczbę wyświetleń, ale prawdopodobnie nie w sposób liniowy.
Trudności z pomiarem. „Reputacja” to suma głosów otrzymanych za różne działania: początkową reputację, odpowiedzi, pytania, zatwierdzanie pytań, edycję tagów wiki, downvoting i obniżanie głosów (w malejącej kolejności wartości). Ponieważ elementy te oceniają różne rzeczy i nie wszystkie są pod kontrolą wyborców społeczności, należy je oddzielić do analizy . „Efekt reputacji” przypuszczalnie wiąże się z głosowaniem na odpowiedziach i być może na pytania, ale nie powinien wpływać na inne źródła reputacji. Początkowa reputacja zdecydowanie powinna zostać odjęta (ale być może mogłaby być wykorzystana jako proxy dla początkowej ilości doświadczenia).
Ukryte czynniki. Może być wiele innych mylących czynników, których nie można zmierzyć. Na przykład istnieją różne formy „wypalenia” podczas uczestnictwa w forach. Co ludzie robią po pierwszych tygodniach, miesiącach lub latach entuzjazmu? Niektóre możliwości obejmują skupienie się na rzadkich, niezwykłych lub trudnych pytaniach; udzielanie odpowiedzi tylko na pytania bez odpowiedzi; udzielanie mniejszej liczby odpowiedzi, ale wyższej jakości; itd. Niektóre z nich mogą maskować efekt reputacji, podczas gdy inne mogą zostać pomylone z jednym. Pełnomocnikiem dla takich czynników mogą być zmiany w poziomie uczestnictwa danej osoby : mogą one sygnalizować zmiany w charakterze jej postów.
Zjawiska podspołeczności. Dokładne spojrzenie na statystyki, nawet na bardzo aktywnych stronach SE, pokazuje, że stosunkowo niewielka liczba osób odpowiada za większość odpowiedzi i głosowania. Klika tak mała jak dwie lub trzy osoby może mieć głęboki wpływ na wzrost reputacji. Dwuosobowa klika zostanie wykryta przez wbudowane monitory strony (i jedna taka grupa istnieje na tej stronie), ale większe kliki prawdopodobnie nie będą. (Nie mówię o formalnej zmowie: ludzie mogą być członkami takich klik nawet nie zdając sobie z tego sprawy.) Jak oddzielilibyśmy pozorny efekt reputacji od działań tych niewidzialnych, niewykrytych, nieformalnych klik? Szczegółowe dane do głosowania można wykorzystać diagnostycznie, ale nie sądzę, abyśmy mieli do nich dostęp.
Ograniczone dane Aby wykryć efekt reputacji, prawdopodobnie będziesz musiał skupić się na osobach z dziesiątkami do setek postów (przynajmniej). To powoduje spadek obecnej populacji do mniej niż 50 osób. Przy całej możliwej zmienności i pomieszaniu jest to zdecydowanie zbyt małe, aby wydobyć znaczące efekty, chyba że są naprawdę bardzo silne. Lekarstwem jest uzupełnienie zestawu danych o rekordy z innych witryn SE .
Biorąc pod uwagę wszystkie te komplikacje, powinno być jasne, że grafika eksploracyjna w artykule na blogu ma niewielkie szanse na ujawnienie czegokolwiek, chyba że jest to rażąco oczywiste. Nic nas nie wyskakuje: zgodnie z oczekiwaniami dane są nieuporządkowane i skomplikowane. Przedwczesne jest zalecanie ulepszeń wykresów lub przedstawionej analizy: zmiany przyrostowe i dodatkowa analiza nie pomogą, dopóki te podstawowe problemy nie zostaną rozwiązane .
źródło
W punkcie 1: jeśli robiłeś ręcznie efekty stałe, powinieneś wyśrodkować zarówno zmienną odpowiedzi, jak i zmienne objaśniające. Pakiet regresji danych panelowych zrobiłby to za ciebie, ale oficjalny ekonometryczny sposób patrzenia na rzeczy polega na odjęciu regresji „pomiędzy” od regresji „pula” (patrz czarna księga Wooldridge ; nie sprawdziłem drugiego wydania, ale ogólnie uważam, że pierwsze wydanie jest najlepszym opisem ekonometrycznym danych panelowych typu podręcznika).
W punkcie 2: oczywiście błędy standardowe Eicker / White nie wpłyną na twoje oszacowania punktów; jeśli tak, oznaczałoby to niepoprawną implementację! W kontekście szeregów czasowych jeszcze bardziej odpowiedni estymator ma Newey i West (1987) . Pomóc mogą próby transformacji. Osobiście jestem wielkim fanem transformacji Box-Cox, ale w kontekście analizy, którą przeprowadzasz, trudno jest to zrobić czysto. Po pierwsze, potrzebujesz parametru przesunięcia na szczycie parametru kształtu, a parametry przesunięcia są niezwykle trudne do zidentyfikowania w takich modelach. Po drugie, prawdopodobnie potrzebujesz różnych parametrów przesunięcia / kształtu dla różnych osób i / lub różnych postów i / lub ... (piekło rozpada się). Zliczanie danych jest również opcją, ale w kontekście modelowania średniego regresja Poissona jest tak samo dobra jak transformacja logarytmiczna, ale narzuca nieporęczne założenie wariancji = średnia.
PS Prawdopodobnie możesz to oznaczyć „danymi wzdłużnymi” i „szeregami czasowymi”.
źródło
Kilka innych zmian w działkach:
Modelowanie tego będzie trudniejsze. Możesz rozważyć regresję Poissona. Szczerze mówiąc, opracowywanie dobrych fabuł jest znacznie lepszą metodą rozwijania spostrzeżeń i umiejętności. Rozpocznij modelowanie po lepszym zrozumieniu danych.
źródło
coplot()
.Zaraz tam. (I mam na myśli to w dobry sposób ;-)) Przed pójściem dalej z modelami, musisz zająć się tym, co się dzieje z danymi.
Nie widzę wyjaśnienia bardzo osobliwej krzywej pośrodku tego wątku: http://stats.blogoverflow.com/files/2011/07/Rep_Correlated_With_Upvotes.png
Widząc taką krzywą, myślę, że w tych punktach jest coś bardzo dziwnego - że nie są od siebie niezależne, a zamiast tego odzwierciedlają pewną sekwencję obserwacji tego samego źródła.
(Drobna uwaga: tytuł tego wątku „Korelacja ...” wprowadza w błąd.)
źródło
Rep(t) - Rep(t-1)
ponieważ użytkownicy mogą zyskać reputację z innych miejsc), oś X to bieżąca reputacja (w tym reputacja uzyskana z tego postu). Oś X jest tym, co zasugerowałem, że należy ją zastąpić (odejmując głosy poparcia uzyskane od odpowiedzi, którą narysowałem na osi Y).