Próbuję stworzyć pakiet do eksploracji danych dla stron StackExchange, a w szczególności utknąłem w próbie ustalenia „najciekawszych” pytań. Chciałbym wykorzystać wynik pytania, ale usuwam stronniczość ze względu na liczbę wyświetleń, ale nie wiem, jak podejść do tego rygorystycznie.
W idealnym świecie mógłbym sortować pytania, obliczając , gdzievjest liczbą głosów, anjest liczbą wyświetleń. W końcu mierzyłby odsetek osób głosujących za pytaniem, minus odsetek osób głosujących za pytaniem.
Niestety sposób głosowania jest znacznie bardziej skomplikowany. Głosy mają tendencję do „plateau” do pewnego poziomu, co skutkuje drastycznym niedocenianiem niezwykle popularnych pytań. W praktyce pytanie z 1 widokiem i 1 głosowaniem z pewnością uzyska wynik i zostanie posortowane wyżej niż jakiekolwiek inne pytanie z 10 000 wyświetleń, ale mniej niż 10 000 głosów.
Obecnie używam jako wzór empiryczny, ale chciałbym być precyzyjny. Jak podejść do tego problemu z matematyczną rygorystycznością?
Aby odpowiedzieć na niektóre komentarze, postaram się lepiej rozwiązać problem:
Powiedzmy mam pytanie z głosów ogółem i n 0 widoki. Chciałbym móc oszacować, jaka liczba głosów v 1 jest najbardziej prawdopodobna, gdy liczba wyświetleń osiągnie n 1 .
W ten sposób mogłem po prostu wybrać wartość nominalną dla i uporządkować wszystkie pytania zgodnie z oczekiwaną sumą v 1 .
Utworzyłem dwa zapytania do bazy danych SO, aby lepiej pokazać efekt, o którym mówię:
Średnia liczba wyświetleń według wyniku
Wynik:
Średnia ocena według wyświetleń (segmenty 100 wyświetleń)
Wynik:
Wyniki, nie jestem pewien, czy prostsze jest lepsze: ( w kolorze niebieskim,v
źródło
Odpowiedzi:
Ciekawe pytanie można zdefiniować jako takie, które uzyskało stosunkowo dużo głosów, biorąc pod uwagę liczbę wyświetleń. W tym celu można utworzyć krzywą bazową, która odzwierciedla oczekiwaną liczbę głosów w danych widokach. Krzywe, które przyciągnęły znacznie więcej głosów niż poziom wyjściowy, zostały uznane za szczególnie interesujące.
Aby skonstruować linię bazową, możesz obliczyć medianę liczby głosów na 100-widokowy koszyk. Ponadto można obliczyć medianę absolutnego odchylenia (MAD) jako solidną miarę odchylenia standardowego na przedział. Następnie „ciekawość” można obliczyć jako
źródło
To jest moja teoria. Myślę, że istnieją dwa rodzaje pytań: te, które pozostają w większości w SE (które zwykle mają mniej widoków) oraz te, które są przeglądane przez osoby z zewnątrz, ponieważ są powiązane z innego miejsca (zwykle mają więcej widoków).
W przypadku pytań, które pozostają w większości w SE, głosy są dobrą miarą interesujących pytań. To jest punkt głosowania.
Gdy pytanie jest powiązane z witryną, głosy przestają mieć takie samo znaczenie. Niektóre strony z linkami mogą mieć bardzo niewielu członków SE, inne mogą mieć więcej. Rozbieżność liczby głosów na te pytania jest prawdopodobnie duża (o czym świadczy wynik w porównaniu do wykresu widoku, w którym rozkwita prawa strona krzywej). Te pytania będą miały więcej wyświetleń, a widoki MOGĄ być lepszym wskaźnikiem interesujących pytań. Lub pytania, które okazały się być większe dla większej społeczności. W tej sytuacji jest wiele zmiennych i myślę, że warto spróbować znaleźć więcej informacji, aby rozróżnić te przypadki. Czy SE publikuje informacje o skierowaniach?
źródło