Mam zestaw danych z ankiety przeprowadzonej wśród klientów, chcę wdrożyć test statystyczny, aby sprawdzić, czy istnieje różnica istotności między produktem 1 a produktem 2.
Oto zestaw danych opinii klientów.
Stawka jest od bardzo złej, złej, w porządku, dobrej, do bardzo dobrej.
customer product1 product2
1 very good very bad
2 good bad
3 okay bad
4 very good okay
5 bad very good
6 okay good
7 bad okay
8 very good very bad
9 good good
10 good very good
11 okay okay
12 very good good
13 good good
14 very good okay
15 very good okay
Jakich metod należy użyć, aby sprawdzić, czy istnieje jakaś różnica między tymi dwoma produktami?
Odpowiedzi:
Do rankingu różnych sędziów można użyć testu Friedmana. http://en.wikipedia.org/wiki/Friedman_test
Możesz zamienić oceny z bardzo złych na bardzo dobre na wartości liczbowe -2, -1, 0, 1 i 2. Następnie umieść dane w długiej formie i zastosuj test Friedman.test z klientem jako czynnik blokujący:
Ranking różnicy między 2 produktami nie jest znaczący.
Edytować:
Poniżej przedstawiono wyniki regresji:
źródło
Jedną z możliwości jest skorzystanie z testu znaku.
Opiera się to na porównaniach wśród klientów, aby sprawdzić, czy ich ocena od produktu1 do produktu2 poszła w górę, w dół, czy pozostała taka sama (w teście znaku dwumianowego założono, że otrzymujesz tylko wyniki „w górę” lub „w dół”, ale są kilka typowych sposobów podejścia do powiązań wewnątrz pary, takich jak klient 9
good
przeciwkogood
).Jednym z powszechnych podejść jest wykluczanie powiązanych ocen, takich jak klient 9 (tak, że wniosek dotyczy względnej proporcji różnic w górę i w dół populacji, przy założeniu losowego próbkowania klientów).
W tym przypadku miałeś 4 klientów, którzy dali wyższe oceny drugiemu produktowi, 8, którzy dali niższe, i trzech, którzy dali to samo.
W takim przypadku przy danych, 4 z jednego znaku i 8 z drugiego, dwustronny test znaku nie zbliżyłby się do odrzucenia na żadnym typowym poziomie istotności. Oto analiza w R:
Wartość p jest dość wysoka.
Teraz, jeśli jesteś gotowy przypisać wyniki (lub nawet tylko ranking) względnym rozmiarom zmian ocen w każdej parze - to znaczy, czy zmiana „dobra” na „zła” klienta 2 jest większa, mniejsza lub tak samo jak „bardzo dobrze” klienta 4, aby „dobrze”, i tak dalej, możesz zastosować podpisany test rangowy na tych stopniach lub wykonując test permutacji w parach na przypisane wyniki (chociaż musisz również radzić sobie z ciężkimi remisami, można to łatwo zrobić, dopuszczając zestawy rang lub wyników, które faktycznie masz).
Istnieje kilka innych opcji, które możesz rozważyć - ale nie sądzę, że wybór analizy zmieni wynik; Myślę, że oni wszyscy nie odrzucą przy typowych poziomach istotności dla tych danych.
źródło
very bad
nagood
jest całkowicie identyczna z zmianą zbad
navery good
, nie możesz twierdzić, że po zakodowaniu ich jako liczby ... (ctd)Masz zależne dane porządkowe. Należy użyć testu rangi podpisanej Wilcoxon, aby sprawdzić znaczącą różnicę między obydwoma produktami u wszystkich klientów.
Ale biorąc pod uwagę powyższe dane, test rangi Wilcoxona nie daje znaczących wyników.
źródło
good
,bad
) lub (very good
,okay
) do zestawu podpisanych rang, ponieważ dzięki temu założenia uczynione po drodze byłyby bardziej oczywiste.Użyj sparowanego testu t
Tak długo, jak masz wystarczającą liczbę ocen (15 jest wystarczających, a byłbym szczęśliwy nawet z mniejszą liczbą) i pewne różnice w różnicach w ocenach, nie ma żadnego problemu ze stosowaniem sparowanego testu t . Następnie otrzymujesz oszacowania, które są bardzo łatwe do interpretacji - średnie oceny w skali numerycznej 1–5 + jego różnica (między produktami).
Kod R.
W R jest to bardzo łatwe:
Najpierw sprawdźmy średnie oceny:
A test t daje nam:
Thep -wartość wynosi 0,13, co nie sugeruje zdecydowanie, że produkty są oceniane inaczej, pomimo pozornej różnicy wynoszącej 0,8 (należy jednak pamiętać o dość pewnym przedziale ufności - naprawdę potrzebujemy więcej danych).
Fałszywe dane?
Co ciekawe i nieoczekiwanie, niesparowany test t daje niższą wartość p .
To sugeruje, że przykładowe dane są fałszywe. W przypadku danych rzeczywistych można oczekiwać (dość wysokiej) dodatniej korelacji między ocenami tego samego klienta. Tutaj korelacja jest ujemna (choć nie tak istotna statystycznie):
Brakujące dane
Gdy nie wszyscy klienci ocenili oba produkty (tzn. Niezrównoważone dane), lepszym podejściem jest zastosowanie modelu mieszanego:
Najpierw przekonwertujmy dane do postaci liczbowej:
I przekonwertuj go na „długą” formę:
I wreszcie dopasuj model efektów mieszanych z klientem jako efekt losowy:
Thep -wartość wynosi 0,0834. Zwykle dla zbalansowanych danych będzie prawie identyczny jak wartość p ze sparowanego testu t . Tu jest bliżej p -value wystąpienia niesparowany t -test, ze względu na korelację ujemną. Zauważ, że wariancja efektu klienta (przechwytywanie losowe) wynosi prawie zero. Zdarza się to rzadko w przypadku rzeczywistych danych.
Podsumowanie
Podsumowując, użyj sparowanego testu t . Następnie otrzymujesz oszacowania, które są łatwe do interpretacji (proste średnie liczbowe).
Jeśli nie wszyscy klienci ocenili oba produkty, użyj zamiast tego modelu efektów mieszanych. (To daje w przybliżeniu takie same wyniki jak sparowane t -test kiedy już wszystko ocenione zarówno produkty, więc równie dobrze można go używać zawsze).
źródło