Jak zamówić lub uszeregować zestaw ekspertów?

11

Mam bazę danych zawierającą dużą liczbę ekspertów w danej dziedzinie. Dla każdego z tych ekspertów mam różne atrybuty / punkty danych, takie jak:

  • liczba lat doświadczenia.
  • licencje
  • liczba recenzji
  • treść tekstowa tych recenzji
  • 5 gwiazdek w każdej z tych recenzji z powodu wielu czynników, takich jak szybkość, jakość itp.
  • nagrody, stowarzyszenia, konferencje itp.

Chcę przedstawić ocenę tym ekspertom na 10 w oparciu o ich znaczenie. Niektórym ekspertom może brakować niektórych punktów danych. Teraz moje pytanie brzmi: jak wymyślić taki algorytm? Czy ktoś może wskazać mi jakąś istotną literaturę?

Obawiam się również, że tak jak w przypadku wszystkich ocen / recenzji, liczby mogą się wiązać w pobliżu niektórych wartości. Na przykład większość z nich może otrzymać 8 lub 5. Czy istnieje sposób na podkreślenie małych różnic w większej różnicy w wyniku tylko dla niektórych atrybutów.

Niektóre inne dyskusje, które uznałem, mogą być istotne:

Sidmitra
źródło
Nie da się tego zrobić, dopóki nie spełni się jakieś obiektywne kryterium; prawdopodobnie większość możliwych ocen można skonstruować za pomocą kombinacji Twoich parametrów.

Odpowiedzi:

12

Ludzie wymyślili wiele systemów do oceniania rzeczy (np. Ekspertów) według wielu kryteriów: lista znajduje się na stronie Wikipedii w sprawie analizy decyzji dotyczącej wielu kryteriów . Nie jest jednak dobrze reprezentowana tam jedna z najbardziej obronnych metod: teoria wyceny wielu atrybutów. Obejmuje to zestaw metod oceny kompromisów między zestawami kryteriów w celu (a) ustalenia odpowiedniego sposobu ponownego wyrażenia wartości poszczególnych zmiennych oraz (b) ważenia ponownie wyrażonych wartości w celu uzyskania wyniku w rankingu . Zasady są proste i możliwe do obrony, matematyka jest nienaganna, a teoria nie ma nic wyszukanego. Więcej osób powinno znać i ćwiczyć te metody, niż wymyślać dowolne systemy oceniania.

Whuber
źródło
Czy znasz pakiet R do tego?
user333
3
@ użytkownik Nie, i wątpię, by istniał. Nawiasem mówiąc, nie ma tu żadnego magicznego oprogramowania: prawie cała praca wymaga przemyślenia problemów i zbadania określonych kompromisów w kontrolowany sposób.
whuber
3

Ostatecznie może to nie być wyłącznie badanie statystyczne. PCA to bardzo skuteczna metoda ilościowa, która pozwoli Ci wygenerować wynik lub wagi na pierwszych kilku głównych składnikach, których możesz użyć do rankingu. Jednak wyjaśnienie, jakie są główne elementy, jest bardzo trudne. Są to konstrukcje ilościowe. Nie są dialektyczne. Zatem wyjaśnienie, co naprawdę oznaczają, niekiedy jest niemożliwe. Jest to szczególnie prawdziwe, jeśli masz odbiorców, którzy nie są ilościowi. Nie będą mieli pojęcia o czym mówisz. I pomyśli o twoim PCA jak o jakiejś tajemniczej czarnej skrzynce.

Zamiast tego po prostu zestawiłbym wszystkie odpowiednie zmienne i użyłbym systemu ważenia opartego na tym, co według nas powinno być ważeniem.

Myślę, że jeśli opracujesz to dla osób postronnych, klientów, użytkowników, byłoby wspaniale, gdybyś mógł wprowadzić elastyczność decydowania o wadze dla użytkowników.
Niektórzy użytkownicy mogą cenić lata doświadczenia znacznie bardziej niż certyfikację i vice versa. Jeśli możesz pozostawić im tę decyzję. W ten sposób Twój algorytm nie jest czarną skrzynką, której nie rozumieją i nie jest im wygodnie. Zachowujesz całkowitą przejrzystość i zależy to od ich względnej wyceny tego, co ważne.

Sympa
źródło
@Getan Cóż, w przypadku PCA musisz znaleźć odpowiednie kodowanie numeryczne dla zmiennej, takiej jak „treść tekstowa” ...
chl
Nie o to mówię. PCA może obsługiwać zmienne obojętne, jak sugerujesz. PCA jest w ten sposób niezwykle wydajny i elastyczny. Ale interpretacja głównych elementów staje się naprawdę trudna. Powiedzmy, że pierwszy główny element zaczyna się w ten sposób: 0,02 lat doświadczenia - 0,4 treść tekstowa recenzji + 0,01 skojarzeń ... Może możesz to wyjaśnić. Wyniki ekspertów są proporcjonalne do wieloletniego doświadczenia, ale odwrotnie proporcjonalne do treści tekstowej recenzji? To wydaje się absurdalne. Ale PCA często generuje sprzeczne z intuicją wyniki.
Sympa
@Getan Nadal powtarzam moją opinię, że problem polega na tym, jak wybierasz reprezentację zmiennych (lub jak znaleźć użyteczną miarę). Zgadzam się z tobą w kwestii trudności w interpretacji liniowej kombinacji zmiennych w przypadku pomiarów nieciągłych lub kombinacji typów danych. Właśnie dlatego zasugerowałem w innym komentarzu, aby szukać alternatywnych metod czynnikowych. W każdym razie opracowanie reguł punktacji w oparciu o preferencje użytkownika lub ocenę ekspercką (jak ma to miejsce w przypadku oceny klinicznej) również wymaga pewnego rodzaju walidacji statystycznej (przynajmniej w celu zapewnienia wiarygodności wyników).
chl
@Gaetan, tak, niektóre z twoich komentarzy mają wiele sensu i masz rację mówiąc, że nie jest to tylko ćwiczenie statystyczne, ale obejmuje elementy, które są bardziej subiektywne. Powodem jest to, że intencja z punktu widzenia użytkownika / klienta może się różnić. Zakładając, że szuka eksperta, po prostu dodaję filtry, aby umożliwić mu wybranie ekspertów> X liczba lat doświadczenia itd. Załóżmy, że zawęził on do 2 ekspertów i chce niezależnego porównania. Właśnie szukam ogólnej metody porównania dwóch dowolnych ekspertów.
Sidmitra
2
+1 za wskazanie, że nie jest to ćwiczenie statystyczne. W najlepszym wypadku PCA może opisać relacje w obrębie określonego zestawu danych i, co możliwe, uprościć dane, identyfikując bliską kolinearność. Nie wiadomo, w jaki sposób może nas poinformować o tym, jak uszeregować ekspertów.
whuber
0

Czy uważasz, że możesz skwantyfikować wszystkie te atrybuty?

Jeśli tak, sugerowałbym przeprowadzenie analizy głównego składnika. W ogólnym przypadku, w którym wszystkie korelacje są dodatnie (a jeśli tak nie jest, można łatwo dostać się za pomocą transformacji), pierwszy główny składnik można uznać za miarę całkowitej ważności eksperta, ponieważ jest on ważony średnia wszystkich atrybutów (a wagi odpowiadałyby udziałowi zmiennych - w tej perspektywie sama metoda ujawni znaczenie każdego atrybutu). Wynik, który każdy ekspert osiąga w pierwszym głównym składniku, jest tym, czego potrzebujesz, aby je uszeregować.

George Dontas
źródło
1
Wygląda to ładnie, ale czy nie będzie po prostu wybierać atrybutów o największej wariancji i największych skupisk tych skorelowanych krzyżowo?
1
Alternatywnie, można przeprowadzić analizę wielu korespondencji lub analizę wielu czynników dla mieszanych danych (jeśli kodowanie numeryczne okazuje się nierealne dla niektórych zmiennych), a reszta Twojego pomysłu (obliczanie wyników czynników i analizowanie ładunków zmiennych w pierwszym wymiarze) ma zastosowanie także.
chl
3
Wydaje mi się, że pierwszy element będzie jedynie wskazywał silny kierunek podobieństwa między ekspertami. Jak może nam to powiedzieć, kto jest lepszy, a kto gorszy? Wymaga to dodatkowych informacji dotyczących związków między tymi zmiennymi oraz jakości bycia „dobrym” lub „złym” ekspertem. Jeśli uważamy, że wszystkie zmienne są monotonicznie powiązane z dobrem lub złem, być może PCA może pomóc nam odkryć granicę ekstremalnych (a może po prostu odległych!) Ekspertów. Uważaj jednak - nawet założenie monotoniczności jest podejrzane.
whuber
1
@ whuber Widzę sens, dzięki. Może mógłbyś to dodać we własnej odpowiedzi (co jest bardzo mile widziane)?
chl