Jak zmierzyć „dobrze zaokrąglone” podmioty uczestniczące w SE?

12

Stack Exchange, jak wszyscy wiemy, to zbiór stron z pytaniami i odpowiedziami na różne tematy. Zakładając, że każda strona jest od siebie niezależna, biorąc pod uwagę statystyki użytkownika, jak obliczyć jego „zaokrąglenie” w porównaniu do następnego faceta? Jakie narzędzie statystyczne powinienem zastosować?

Szczerze mówiąc, nie do końca wiem, jak matematycznie zdefiniować „okrągłość”, ale musi mieć następujące cechy:

  1. Wszystkie rzeczy są równe, im więcej powtórzeń ma użytkownik, tym bardziej jest zaokrąglony
  2. Wszystkie rzeczy są równe, im więcej stron użytkownik bierze udział, tym bardziej jest zaokrąglony.
  3. Czy odpowiedź lub pytanie nie wpływa na okrągłość
Grawiton
źródło
Jak zdefiniowałbyś przede wszystkim „wszechstronność” w kontekście SE?
JM nie jest statystykiem
@JM, nie wiem, dlatego mam nadzieję, że społeczność pomogłaby jeszcze bardziej rozwinąć koncepcje.
Graviton
1
Ryzykując, że brzmi jak jedna z koleżanek policji PC - Uwzględnijmy kobiety odwiedzające naszą stronę. @Graviton, wszystkie twoje odniesienia dotyczą mężczyzn.
rolando2
Dobrze zaokrąglone zdefiniowane przez identyfikator użytkownika nie mówi o dobrze zaokrąglonym współautorze , ponieważ współautor może mieć różne identyfikatory użytkownika dla różnych SE. Niektóre identyfikatory użytkowników mogą być również używane przez więcej niż jednego dostawcę (np. Partnerów, którzy współużytkują konto).
Alexis

Odpowiedzi:

7

Musisz również uwzględnić podobieństwo między stronami. Ktoś, kto uczestniczy w StackOverflow i Seasoned Advice, jest bardziej zaokrąglony niż ktoś, kto uczestniczy w SO i CrossValidated, który z kolei (argumentowałbym) bardziej zaokrąglony niż ktoś, kto uczestniczy w SO i Programistach . Istnieje niewątpliwie wiele sposobów, aby to zrobić, ale możesz sprawdzić nakładającą się rejestrację, aby po prostu to sprawdzić.

Matt Parker
źródło
1
@Matt Parker, dobre punkty - jeśli rep jest częścią metryki, myślę też, że musisz spojrzeć na to, jak uzyskano rep. Osoba, która uzyskała swoje przedstawicielstwo dzięki niewielkim zyskom na wielu pytaniach / odpowiedziach, byłaby prawdopodobnie bardziej zaokrąglona niż osoba, która uzyskała tego samego przedstawiciela na jedno pytanie, które uzyskało mnóstwo głosów.
DQdlM,
3
@Kenny To dobry punkt i myślę, że sposób, w jaki stwierdziłeś, że jest poprawny - ale wydaje mi się, że wiele najczęściej głosowanych pytań i odpowiedzi jest często najmniej wskazujących na wiedzę specjalistyczną, podczas gdy dobre odpowiedzi na naprawdę trudne pytania techniczne często mają bardzo niskie głosy.
Matt Parker,
1
Sprawdź na przykład odpowiedzi Whubera. Jego odpowiedzi są jednakowo doskonałe, więc co odróżnia jego wysoko ocenione odpowiedzi od jego 1-głosujących? Kiedy patrzę na to pierwsze, widzę doskonałe odpowiedzi na pytania, które rozumiem; w tym ostatnim, doskonałe odpowiedzi na pytania, których nawet nie zaczynam się marudzić. Tak słabo głosowane odpowiedzi mogą w rzeczywistości wskazywać na głęboką specjalizację (ale uwaga: jeśli jesteś ciekawy, jak wygląda dobrze zaokrąglony użytkownik SE, to jest to ).
Matt Parker,
1
W rzeczywistości, @Graviton, rozsądne może być wyszukanie użytkowników z wieloma witrynami, którzy uznaliby Cię za dobrze przygotowaną, i zobaczenia, jak radzą sobie w różnych danych.
Matt Parker,
1
@KennyPeanuts, aby uzupełnić punkt @ Matta powyżej, wydaje się, że istnieje znaczna liczba użytkowników w witrynach SE, którzy odpowiadają na ogromną liczbę pytań, ale przynoszą niewiele pozytywnych opinii. Zwykle nie świadczy to o wiedzy specjalistycznej ani o wszechstronności. (Jest to jednak jedna z najłatwiejszych strategii zdobywania „reputacji”).
kardynał
6

PRZYKŁAD: powiedzmy, że istnieją trzy witryny i chcemy porównać dobrze zaokrąglone użytkowników A, B, C. Piszemy reputację użytkowników na tych trzech stronach w formie wektorowej:

Użytkownik A: [23, 23, 0]

Użytkownik B: [15, 15, 0]

Użytkownik C: [10, 10, 10]

Uważamy, że A jest bardziej zaokrąglony niż B (obie ich reputacje są równomiernie rozmieszczone w dwóch witrynach, ale A ma lepszą reputację). Ponadto uważalibyśmy, że C jest bardziej zaokrąglony niż B (mają taką samą całkowitą reputację, ale C ma nawet większy zasięg w większej liczbie witryn). Nie jest zdecydowane, czy A należy uznać za bardziej zaokrąglone niż C, czy odwrotnie .

xAxBxC

f(x)ff(xA)>f(xB)f(xC)>f(xB)

f(x)

Dwa popularne przykłady funkcji wypukłych to „norma ułamkowa”

f([x1,...,xm])=ixip

0<p<1

p=1/2

f(xA)=2239.6
f(xB)=2157.7
f(xC)=3109.5

1/2

f

f([x1,...,xm])=ixilog(xi/c).

c=ixi

f

f(xA)=46log(2)31.9
f(xB)=30log(2)20.8
f(xC)=30log(3)33.0

Mierząc według skalowanej entropii Shannona, powiedzielibyśmy, że C jest najbardziej zaokrąglonym z trzech, a A drugim najbardziej zaokrąglonym.

f(x)

EDYCJA 2: Dodano przykład w świetle komentarza Whubera.

charles.y.zheng
źródło
f
f[1,101]f
Norma ułamkowa jest niezdefiniowana, gdy dowolna x_i <0. Entropia Shannona zawodzi, gdy dowolna x_i / c ≤ 0. Nie ma sensu, aby miara dobrze zaokrąglonego wybuchła nagle, gdy niektóre x_i zmienią się z 0 na -𝜀.
200_success
4

To naprawdę interesujące pytanie (w rzeczy samej, jestem trochę zakochany w pomyśle modelowania stron wymiany stosów w ogóle).

Jeśli chodzi o kwestię wszechstronności, jednym ze sposobów oceny tego byłoby użycie tagów, na które poszczególni użytkownicy zwykle odpowiadają, i ich dystrybucja w różnych witrynach. Przykłady mogą to wyjaśnić.

Jestem członkiem TeX, StackOverflow, CrossValidated i AskUbuntu. Teraz naprawdę wnoszę tylko wkład tutaj i StackOverflow, i tylko o R w Stackoverflow. Aby więc zdefiniować dobrze zaokrąglenie, przyjrzałbym się: a) ilości znaczników, które mają dwie strony wspólne (w celu zdefiniowania podobieństwa między witrynami) oraz zakresu, w jakim użytkownik odpowiada na pytania w witrynach, które mają niewiele znaczników lub nie mają ich wcale.

Jeśli na przykład ktoś przyczynia się do tagów Python w StackOverflow i gotowaniu, ta osoba jest bardziej dopracowana niż ktoś, kto odpowiada na pytania dotyczące oprogramowania statystycznego (na przykład) na pytania dotyczące przepełnienia i statystyk.

Mam nadzieję, że jest to nieco pomocne.

richiemorrisroe
źródło
4
(+1) Ktoś, kto przyczynia się do tagów Python zarówno w SO, jak i podczas gotowania, ma w jedzeniu egzotyczne smaki :-) Słyszę, że smakuje jak kurczak.
whuber
3

Jeśli zdefiniujesz „dobrze zaokrąglony” jako „przyczyniający się do wielu różnych witryn stosu wymiany”, obliczę pewną miarę wkładu dla każdej witryny. Możesz użyć łącznej liczby postów, średniej liczby postów dziennie lub reputacji. Następnie spójrz na rozkład tej metryki we wszystkich witrynach i oblicz jej skośność w sposób, który ma sens.

Innymi słowy, „dobrze zaokrąglona” osoba to osoba, która przyczynia się do wielu różnych witryn, podczas gdy „nie zaokrąglona” osoba to osoba, która przede wszystkim przyczynia się do jednej witryny. Możesz to jeszcze poprawić, skalując metrykę z sumą użytkownika we wszystkich witrynach. tzn. ktoś, kto dużo wniósł do wielu różnych witryn, powinien być uważany za bardziej wszechstronnego niż ktoś, kto nie wniósł nic do żadnej z tych stron. Osoba, która nigdy nie używała SE, nie jest zbyt dobrze zaokrąglona!

Zach
źródło
1

Już wiele dobrych odpowiedzi, więc dlaczego jeszcze jedna? Ma to przede wszystkim zwrócić uwagę na ciekawe pomysły omówione tutaj w kawiarni The n-Category Café . Podczas gdy różnorodność w ekologii (i gdzie indziej) przeważnie skupia się tylko na obfitości, należy również przyjrzeć się, jak podobne / odmienne są różne gatunki.

Reprezentując gatunek (lub cokolwiek, jak miejsca SE ...) jako punkty w przestrzeni metrycznej, prowadzi to do uogólnienia entropii do przestrzeni metrycznych, patrz na przykład Maksymalna entropia przestrzeni metrycznej autorstwa Toma Leinstera, Emily Roff . Te same pomysły można zastosować w witrynach SE, patrząc na znaczniki jako punkty w przestrzeni metrycznej.

kjetil b halvorsen
źródło