Porównanie list rankingowych

15

Załóżmy, że każda z dwóch grup, składająca się z i n 2, zajmuje zestaw 25 pozycji od najważniejszych do najmniej ważnych. Jakie są najlepsze sposoby na porównanie tych rankingów?n1n2

Oczywiście możliwe jest wykonanie 25 testów U Manna-Whitneya, ale dałoby to 25 wyników testu do interpretacji, co może być zbyt wiele (i przy ścisłym użyciu powoduje pytania o wielokrotne porównania). Nie jest też dla mnie całkowicie jasne, czy szeregi spełniają wszystkie założenia tego testu.

Byłbym również zainteresowany wskazówkami do literatury na temat oceniania vs. rankingu.

Trochę kontekstu: wszystkie te 25 pozycji dotyczą edukacji, a dwie grupy są różnymi typami nauczycieli. Obie grupy są małe.

EDYCJA w odpowiedzi na @ttnphns:

Nie chciałem porównywać całkowitej rangi przedmiotów w grupie 1 do grupy 2 - byłoby to stałe, jak wskazuje @ttnphns. Ale rankingi w grupie 1 i grupie 2 będą się różnić; to znaczy, grupa 1 może uszeregować pozycję 1 wyżej niż grupa 2.

Mógłbym je porównać, pozycja po pozycji, uzyskanie średniej lub mediany rangi każdego przedmiotu i wykonanie 25 testów, ale zastanawiałem się, czy jest jakiś lepszy sposób, aby to zrobić.

Peter Flom - Przywróć Monikę
źródło
1
Jeśli każda osoba sklasyfikowała 25 pozycji, to suma między 25 zmiennymi jest stała (325). Biorąc to pod uwagę, co masz na myśli mówiąc the best ways to compare these rankings- jaki rodzaj różnic między dwiema grupami chciałbyś wiedzieć?
ttnphns
2
Może obliczyć Medianę Kemeny dla każdej grupy? Nie zrobiłem tego sam i nie wiem, czy 2 wyniki mogłyby być porównane statystycznie (tj. Z wnioskiem o populacji).
ttnphns
1
Inną opcją mogą być powtarzane pomiary regresji porządkowej (gdzie interakcja między czynnikiem grupowym a współczynnikiem rm będzie Twoim zainteresowaniem); można tego dokonać za pomocą modelu GEE z wielomianową dystrybucją i łączem logit. Ale znowu, ponieważ suma w 25 pozycjach jest stała, nie mogę teraz powiedzieć, czy jest poprawna matematycznie.
ttnphns
2
Nie mam tej książki, ale „Teoria i praktyka pomiaru” autorstwa D Hand omawia niektóre kwestie, które brzmią podobnie do tego. Co w szczególności chcesz wiedzieć o „różnicy” w rankingu. Na przykład, czy nie możesz najpierw utworzyć zagregowanego rankingu dla każdej grupy, a następnie przyjąć korelację rang?
Corone
2
@PeterFlom Czy w końcu znalazłeś rozwiązanie dla porównania rang? Jeśli tak, czy mógłbyś to opublikować? :)
Mark Heckmann

Odpowiedzi:

6

streszczenie

Dzielę się swoimi przemyśleniami w dziale Szczegóły . Myślę, że są one przydatne w określeniu, co naprawdę chcemy osiągnąć.

Myślę, że głównym problemem jest to, że nie zdefiniowałeś, co oznacza podobieństwo rang. Dlatego nikt nie wie, która metoda pomiaru różnicy między szeregami jest lepsza.

W efekcie pozwala nam to dwuznacznie wybrać metodę opartą na domysłach.

To, co naprawdę sugeruję, to najpierw zdefiniować matematyczny cel optymalizacji. Tylko wtedy będziemy pewni, czy naprawdę wiemy, czego chcemy.

Dopóki tego nie zrobimy, naprawdę nie wiemy, czego chcemy. Możemy niemal wiedzieć, co chcemy, ale prawie wiedząc wiedząc .

Mój tekst w Szczegółach jest zasadniczo krokiem w kierunku matematycznej definicji podobieństwa rang . Kiedy już to osiągniemy, możemy śmiało iść do przodu, aby wybrać najlepszą metodę pomiaru takiego podobieństwa.

Detale

Na podstawie jednego z twoich komentarzy:

  • Celem jest sprawdzenie, czy rankingi dwóch grup się różnią ”, Peter Flom.

Aby odpowiedzieć na to pytanie, jednocześnie ściśle interpretując cel:

  • i{1,2,,25}iaibiaiiabib
  • W przeciwnym razie szeregi nie są różne.

Ale nie sądzę, że naprawdę chcesz tej ścisłej interpretacji. Dlatego myślę, że tak naprawdę chciałeś powiedzieć:

  • ab

ab

n13ab3

Ale czy ta metoda jest odpowiednia? Aby odpowiedzieć na to pytanie, spójrzmy na to nieco głębiej:

  • a,b3c,d123a,bc,dc,d

  • Zakłada, że ​​koszt każdej edycji jest liniowy w odniesieniu do liczby przeskoków. Czy dotyczy to naszej domeny aplikacji? Czy to możliwe, że relacja logistyczna jest bardziej odpowiednia? Czy wykładniczy ?

  • 15

Gdy zajmiemy się powyższymi punktami i osiągniemy odpowiedni stopień podobieństwa między dwoma szeregami, będziemy musieli zadać bardziej interesujące pytania, takie jak:

  • ab
jaskiniowiec
źródło
5

To brzmi jak „test podpisanej rangi Willcoxona” ( link wikipedia ). Zakładając, że wartości twoich rang pochodzą z tego samego zestawu (tj. [1, 25]), To jest to test różnicy par (z hipotezą zerową, że te pary zostały wybrane losowo). Uwaga: jest to wynik braku podobieństwa!

Na tej stronie wiki znajdują się zarówno linki, jak Ri Pythonimplementacje.

danodonovan
źródło
Ciekawy. Nie słyszałem o sparowanej różnicy Wilcoxona.
Peter Flom - Przywróć Monikę
4

Ostrzeżenie: to świetne pytanie i nie znam odpowiedzi, więc jest to raczej „to, co bym zrobił, gdybym musiał”:

W tym problemie istnieje wiele stopni swobody i wiele porównań, które można zrobić, ale przy ograniczonych danych tak naprawdę chodzi o efektywne agregowanie danych. Jeśli nie wiesz, jaki test uruchomić, zawsze możesz go „wymyślić”, używając permutacji:

Najpierw definiujemy dwie funkcje:

  • Funkcja głosowania : jak oceniać rankingi, abyśmy mogli łączyć wszystkie rankingi jednej grupy. Na przykład możesz przypisać 1 punkt do pozycji o najwyższej pozycji, a 0 wszystkim pozostałym. Tracilibyście jednak wiele informacji, więc może lepiej jest użyć czegoś takiego: pozycja najwyżej punktowana dostaje 1 punkt, druga pozycja 2 punkty itp.

  • Funkcja porównania : Jak porównać dwa zagregowane wyniki między dwiema grupami. Ponieważ oba będą wektorem, zadziałałoby przyjęcie odpowiedniej normy różnicy.

Teraz wykonaj następujące czynności:

  1. Najpierw oblicz statystyki testowe, obliczając średni wynik za pomocą funkcji głosowania dla każdej pozycji w dwóch grupach, co powinno prowadzić do dwóch wektorów o rozmiarze 25.
  2. Następnie porównaj dwa wyniki za pomocą funkcji porównania, będzie to twoja statystyka testowa.

Problem polega na tym, że nie znamy rozkładu statystyki testowej poniżej zera, że ​​obie grupy są takie same. Ale jeśli są takie same, moglibyśmy losowo potasować obserwacje między grupami.

n1

Powtórz ten proces około 1000 razy, a teraz wykorzystaj statystyki testu permutacji jako empiryczny rozkład zerowy. To pozwoli ci obliczyć wartość p, i nie zapomnij zrobić ładnego histogramu i narysować linię dla statystyki testowej w następujący sposób:

test permutacji histogramu l1

l1l1l2

test permutacji histogramu l2

Ale w zależności od ustawienia, spodziewam się, że może istnieć wiele losowości i będziesz potrzebować dość dużej wielkości próbki, aby metoda metody catch-all działała. Jeśli masz wcześniejszą wiedzę na temat konkretnych rzeczy, które Twoim zdaniem mogą różnić się między obiema grupami (powiedzmy konkretne elementy), użyj ich, aby dostosować swoje dwie funkcje. (Oczywiście zwykle należy to zrobić przed uruchomieniem testu i nie wybierać projektów, dopóki nie pojawi się coś znaczącego )

PS napisz do mnie wiadomość, jeśli jesteś zainteresowany moim (niechlujnym) kodem. Tutaj jest trochę za długo, ale chętnie go załaduję.

Sven
źródło
Naprawdę podoba mi się ten pomysł.
Peter Flom - Przywróć Monikę