Funkcja „ciekawości” dla pytań StackExchange

Próbuję stworzyć pakiet do eksploracji danych dla stron StackExchange, a w szczególności utknąłem w próbie ustalenia „najciekawszych” pytań. Chciałbym wykorzystać wynik pytania, ale usuwam stronniczość ze względu na liczbę wyświetleń, ale nie wiem, jak podejść do tego rygorystycznie.

W idealnym świecie mógłbym sortować pytania, obliczając , gdziejest liczbą głosów, ajest liczbą wyświetleń. W końcu mierzyłby odsetek osób głosujących za pytaniem, minus odsetek osób głosujących za pytaniem. $\frac{v}{n}$ $v$ $n$

Niestety sposób głosowania jest znacznie bardziej skomplikowany. Głosy mają tendencję do „plateau” do pewnego poziomu, co skutkuje drastycznym niedocenianiem niezwykle popularnych pytań. W praktyce pytanie z 1 widokiem i 1 głosowaniem z pewnością uzyska wynik i zostanie posortowane wyżej niż jakiekolwiek inne pytanie z 10 000 wyświetleń, ale mniej niż 10 000 głosów.

Obecnie używam jako wzór empiryczny, ale chciałbym być precyzyjny. Jak podejść do tego problemu z matematyczną rygorystycznością? $\frac{v}{\log{n}+1}$

Aby odpowiedzieć na niektóre komentarze, postaram się lepiej rozwiązać problem:

Powiedzmy mam pytanie z głosów ogółem i widoki. Chciałbym móc oszacować, jaka liczba głosów jest najbardziej prawdopodobna, gdy liczba wyświetleń osiągnie . $v_0$ $n_0$ $v_1$ $n_1$

W ten sposób mogłem po prostu wybrać wartość nominalną dla i uporządkować wszystkie pytania zgodnie z oczekiwaną sumą . $n_1$ $v_1$

Utworzyłem dwa zapytania do bazy danych SO, aby lepiej pokazać efekt, o którym mówię:

Średnia liczba wyświetleń według wyniku

Wynik:

Wyświetlenia według wyniku

Średnia ocena według wyświetleń (segmenty 100 wyświetleń)

Wynik:

Ocena według wyświetleń

Dwie formuły porównane

Wyniki, nie jestem pewien, czy prostsze jest lepsze: ( w kolorze niebieskim, $\frac{v}{n}$ $\frac{v}{log{n}+1}$

Formuły

data-mining predictive-models Sklivvz
źródło

To z pewnością interesujące pytanie, ale myślę, że lepiej byłoby zadać to na stats.SE.

@ Theo Być może masz rację. Oflaguję migrację modów, jeśli uznają to za najlepsze.

Dlaczego poglądy nie przyczyniłyby się do ciekawości? (ale co gorsza, dlaczego mieliby przyczyniać się negatywnie?) Bardziej interesujące rzeczy wydają się być częściej postrzegane ... Podstawowym problemem tutaj jest to, co ciekawe ? Czy to znaczy pytania ogólnego zainteresowania lub pytania, które są interesujące dla bardziej konkretnych odbiorców wyższym poziomie? Aby ktoś mógł odpowiedzieć na to pytanie „matematyczną rygorystycznością”, musi najpierw zostać rygorystycznie postawiony.

Widoki odchylają pytania, ponieważ jedno pytanie może, powiedzmy, być linkiem do dobrej witryny i uzyskać mnóstwo wyświetleń - jeśli spojrzysz na najwyżej ocenione pytania , wszystkie są pytaniami o wysokiej oglądalności ; przez interesujące rozumiem pytania, które mają większą wartość w oczach użytkowników witryny. W każdym razie wciąż pozostaje pytanie: jaki jest właściwy sposób łączenia poglądów i głosów w celu uzyskania najlepszego predyktora jakości?

Ludzie matematyki zadawali dobre pytania. Logika tego pytania wydaje się okrągła: wydaje się, że prosi nas o formułę mierzącą „jakość” pytania SE, ale nie określa ona, co oznacza „jakość”, z wyjątkiem nadania nieoperacyjnym synonimom wartości podobnej do postrzeganej przez użytkowników witryny ”. Nie możesz dostać czegoś za nic!

whuber

Odpowiedzi:

Ciekawe pytanie można zdefiniować jako takie, które uzyskało stosunkowo dużo głosów, biorąc pod uwagę liczbę wyświetleń. W tym celu można utworzyć krzywą bazową, która odzwierciedla oczekiwaną liczbę głosów w danych widokach. Krzywe, które przyciągnęły znacznie więcej głosów niż poziom wyjściowy, zostały uznane za szczególnie interesujące.

Aby skonstruować linię bazową, możesz obliczyć medianę liczby głosów na 100-widokowy koszyk. Ponadto można obliczyć medianę absolutnego odchylenia (MAD) jako solidną miarę odchylenia standardowego na przedział. Następnie „ciekawość” można obliczyć jako

interestingness(votes,views) = (votes-baselineVotes(views))/baselineMAD(views)

Jonas
źródło

To jest moja teoria. Myślę, że istnieją dwa rodzaje pytań: te, które pozostają w większości w SE (które zwykle mają mniej widoków) oraz te, które są przeglądane przez osoby z zewnątrz, ponieważ są powiązane z innego miejsca (zwykle mają więcej widoków).

W przypadku pytań, które pozostają w większości w SE, głosy są dobrą miarą interesujących pytań. To jest punkt głosowania.

Gdy pytanie jest powiązane z witryną, głosy przestają mieć takie samo znaczenie. Niektóre strony z linkami mogą mieć bardzo niewielu członków SE, inne mogą mieć więcej. Rozbieżność liczby głosów na te pytania jest prawdopodobnie duża (o czym świadczy wynik w porównaniu do wykresu widoku, w którym rozkwita prawa strona krzywej). Te pytania będą miały więcej wyświetleń, a widoki MOGĄ być lepszym wskaźnikiem interesujących pytań. Lub pytania, które okazały się być większe dla większej społeczności. W tej sytuacji jest wiele zmiennych i myślę, że warto spróbować znaleźć więcej informacji, aby rozróżnić te przypadki. Czy SE publikuje informacje o skierowaniach?

rm999
źródło

Czy SE publikuje informacje o skierowaniach? Chciałbym poznać wzorzec wyświetlania postów, a nie tylko komentarze, komentarze itp.

d_a_c321,