Oto na przykład definicje, które otrzymuję ze standardowych podręczników
Zmienna - charakterystyczna dla populacji lub próby. dawny. Cena akcji lub oceny na teście
Dane - rzeczywiste obserwowane wartości
Tak więc dla raportu dwukolumnowego [Nazwa | Dochód] nazwami kolumn byłyby zmienne, a rzeczywiste zaobserwowane wartości {dave | 100K}, {jim | 200 tys.} To dane
Więc jeśli powiem, że kolumna [Nazwa] to dane nominalne, a [dochód] to dane współczynnika, czy nie byłbym bardziej dokładny, opisując ją jako rodzaj zmiennej zamiast rodzaju danych, jak większość podręczników? Rozumiem, że to może być semantyka, i to dobrze, że to wszystko, co tam jest. Obawiam się jednak, że czegoś mi tutaj brakuje.
dataset
ordinal-data
categorical-data
ratio
Użytkownik 42
źródło
źródło
Odpowiedzi:
Skala typologia Stevensa niekoniecznie jest nieodłączną cechą niektórych zmiennych, ani nawet same dane, ale o tym, jak traktujemy informacje - co używamy go do myśli .
W niektórych okolicznościach dokładnie tę samą wartość można uznać za stosunek, interwał, porządek lub wartość nominalną, w zależności od tego, co z tym robimy - to kwestia tego, jakie znaczenie nadajemy wartościom, które mogą się zmieniać z jednej analizy do następnej. Typologia Stevensa ma pewną wartość, ale nie jest zbyt nakazowa.
Ta kwestia znaczenia skali jako znaczenia sięga przynajmniej Pana (1953), który podał przykład, w którym istniały interpretacje nominalne i przedziałowe tego samego zestawu liczb.
Tę kwestię jeszcze wyraźniej podkreślili Velleman i Wilkinson (1993), którzy oferują przykład osób otrzymujących kolejno numerowane bilety przy wejściu na przyjęcie z nagrodą przyznawaną jednemu z biletów; w zależności od wykorzystania liczb na biletach mają interpretacje na wszystkich czterech skalach.
Na przykład „czy wygrałem?” to pytanie traktujące liczbę jako nominalną, podczas gdy „czy przybyłem zbyt wcześnie, aby zdobyć zwycięski bilet?” jest pytaniem, które traktuje je jako porządkowe; z drugiej strony (i nie sądzę, aby ten był w gazecie) użycie 5 losowych liczb biletów w celu oszacowania liczby osób w pokoju traktowałoby je jako stosunek (np. gdyby były 4 losowane liczby, które otrzymały nagrody pocieszenia, miałbyś w sumie 5 liczb losowych, z których można oszacować łączną frekwencję).
Twierdzą, że „dobra analiza danych nie zakłada typów danych”, „kategorie Stevensa nie opisują stałych atrybutów danych”, „kategorie Stevensa są niewystarczające do opisania skal danych” oraz „Procedury statystyczne nie mogą być klasyfikowane zgodnie z kryteriami Stevensa” (faktycznie każda instrukcja jest także tytułem sekcji).
Krytykę przedstawił także w kilku miejscach Tukey (np. W rozdziale 5 książki Mostellera i Tukeya z 1977 r. Analiza danych i regresja ); Mosteller i Tukey zaproponowali typologię - imiona , stopnie (uporządkowane etykiety), rangi (od 1, które mogą reprezentować albo największą, albo najmniejszą), ułamki zliczone (ograniczone przez zero i jeden, to są wartości procentowe), liczby (nieujemne liczby całkowite), kwoty (nieujemne liczby rzeczywiste), salda (bez ograniczeń, wartości dodatnie lub ujemne).
W mojej własnej pracy widziałem sytuacje, w których poważne problemy z analizą były spowodowane tym, że ludzie nie docenili wielkiej różnicy między zmiennymi związanymi z poziomami (czasami nazywanymi zmiennymi „wyjściowymi”) a przepływami - prosty przykład tego rodzaju to różnica w rodzajach analiz odpowiednich dla ilości wody faktycznie w zbiorniku w każdym z okresów i ilości wody wpływającej do niego. Obie byłyby (w niektórych z tych przypadków) podkategoriami typu „ kwot ” Mostellera i Tukeya (oraz w tych samych przypadkach obie zmienne proporcji w schemacie Stevensa), wskazując, że kwestie typologii mogą być dość subtelne, ale wciąż może mieć krytyczny wpływ na odpowiednie analizy.
PFVelleman i L.Wilkinson (1993),
„Nominal, Ordinal, Interval, and Ratio Typologies są mylące”,
The American Statistician , vol. 47 nr 1 s. 65–72
(wydaje się, że działająca wersja jest dostępna na stronie internetowej drugiego autora tutaj )
Lord, F. (1953),
„O statystycznym traktowaniu liczb piłkarskich”,
American Psychologist , 8 , s. 750–751
(Rok tego artykułu jest błędnie podany w odniesieniach do wersji artykułu Vellemana i Wilkinsona, do którego odsyłam, ale do którego poprawnie się odwołuję w treści artykułu)
źródło
Rodzaj danych jest powiązany, ale nie identyczny z typem zmiennej. Większość przypadków jest taka sama, ale nie musi tak być.
Na przykład, jeśli pobierzesz N próbek z rozkładu normalnego. Można by pomyśleć, że są to dane liczbowe (stosunek lub skala). Ale mogę też powiedzieć, że jest to zmienna kategorialna z N różnymi kategoriami, z częstotliwością 1 dla każdej kategorii. Wygląda głupio, ale jest to również poprawna zmienna.
źródło