Czy typy danych (nominalne / porządkowe / interwałowe / stosunek) naprawdę powinny być uważane za typy zmiennych?

10

Oto na przykład definicje, które otrzymuję ze standardowych podręczników

Zmienna - charakterystyczna dla populacji lub próby. dawny. Cena akcji lub oceny na teście

Dane - rzeczywiste obserwowane wartości

Tak więc dla raportu dwukolumnowego [Nazwa | Dochód] nazwami kolumn byłyby zmienne, a rzeczywiste zaobserwowane wartości {dave | 100K}, {jim | 200 tys.} To dane

Więc jeśli powiem, że kolumna [Nazwa] to dane nominalne, a [dochód] to dane współczynnika, czy nie byłbym bardziej dokładny, opisując ją jako rodzaj zmiennej zamiast rodzaju danych, jak większość podręczników? Rozumiem, że to może być semantyka, i to dobrze, że to wszystko, co tam jest. Obawiam się jednak, że czegoś mi tutaj brakuje.

Użytkownik 42
źródło
Nie wydaje mi się to znaczącą różnicą; Osobiście uważam, że frazowanie jest do zaakceptowania. Definicja „zmiennej” wydaje się jednak nieco odbiegająca od normy.
Nick Stauner
2
@Nick Wierzę, że jeśli przetłumaczymy potoczną „cechę” na matematyczną „funkcję o wartościach rzeczywistych”, otrzymamy część definicji zmiennej losowej. (Brakującą częścią jest oczywiście mierzalność w odniesieniu do pola sigma na populacji.) Zwykle jednak tłumaczymy „charakterystykę próbki” na techniczną definicję statystyki : może to jest to, o czym mówisz, że jest "Niewiele." Dzięki tym tłumaczeniom zmienne w ogóle nie mają „typów” w sensie Stevensa (możemy jedynie odróżnić rozkłady dyskretne od ciągłych ) - ale niektóre dane mogą.
whuber

Odpowiedzi:

16

Skala typologia Stevensa niekoniecznie jest nieodłączną cechą niektórych zmiennych, ani nawet same dane, ale o tym, jak traktujemy informacje - co używamy go do myśli .

W niektórych okolicznościach dokładnie tę samą wartość można uznać za stosunek, interwał, porządek lub wartość nominalną, w zależności od tego, co z tym robimy - to kwestia tego, jakie znaczenie nadajemy wartościom, które mogą się zmieniać z jednej analizy do następnej. Typologia Stevensa ma pewną wartość, ale nie jest zbyt nakazowa.

Ta kwestia znaczenia skali jako znaczenia sięga przynajmniej Pana (1953), który podał przykład, w którym istniały interpretacje nominalne i przedziałowe tego samego zestawu liczb.

Tę kwestię jeszcze wyraźniej podkreślili Velleman i Wilkinson (1993), którzy oferują przykład osób otrzymujących kolejno numerowane bilety przy wejściu na przyjęcie z nagrodą przyznawaną jednemu z biletów; w zależności od wykorzystania liczb na biletach mają interpretacje na wszystkich czterech skalach.

Na przykład „czy wygrałem?” to pytanie traktujące liczbę jako nominalną, podczas gdy „czy przybyłem zbyt wcześnie, aby zdobyć zwycięski bilet?” jest pytaniem, które traktuje je jako porządkowe; z drugiej strony (i nie sądzę, aby ten był w gazecie) użycie 5 losowych liczb biletów w celu oszacowania liczby osób w pokoju traktowałoby je jako stosunek (np. gdyby były 4 losowane liczby, które otrzymały nagrody pocieszenia, miałbyś w sumie 5 liczb losowych, z których można oszacować łączną frekwencję).

Twierdzą, że „dobra analiza danych nie zakłada typów danych”, „kategorie Stevensa nie opisują stałych atrybutów danych”, „kategorie Stevensa są niewystarczające do opisania skal danych” oraz „Procedury statystyczne nie mogą być klasyfikowane zgodnie z kryteriami Stevensa” (faktycznie każda instrukcja jest także tytułem sekcji).

Krytykę przedstawił także w kilku miejscach Tukey (np. W rozdziale 5 książki Mostellera i Tukeya z 1977 r. Analiza danych i regresja ); Mosteller i Tukey zaproponowali typologię - imiona , stopnie (uporządkowane etykiety), rangi (od 1, które mogą reprezentować albo największą, albo najmniejszą), ułamki zliczone (ograniczone przez zero i jeden, to są wartości procentowe), liczby (nieujemne liczby całkowite), kwoty (nieujemne liczby rzeczywiste), salda (bez ograniczeń, wartości dodatnie lub ujemne).

W mojej własnej pracy widziałem sytuacje, w których poważne problemy z analizą były spowodowane tym, że ludzie nie docenili wielkiej różnicy między zmiennymi związanymi z poziomami (czasami nazywanymi zmiennymi „wyjściowymi”) a przepływami - prosty przykład tego rodzaju to różnica w rodzajach analiz odpowiednich dla ilości wody faktycznie w zbiorniku w każdym z okresów i ilości wody wpływającej do niego. Obie byłyby (w niektórych z tych przypadków) podkategoriami typu „ kwot ” Mostellera i Tukeya (oraz w tych samych przypadkach obie zmienne proporcji w schemacie Stevensa), wskazując, że kwestie typologii mogą być dość subtelne, ale wciąż może mieć krytyczny wpływ na odpowiednie analizy.

PFVelleman i L.Wilkinson (1993),
„Nominal, Ordinal, Interval, and Ratio Typologies są mylące”,
The American Statistician , vol. 47 nr 1 s. 65–72

(wydaje się, że działająca wersja jest dostępna na stronie internetowej drugiego autora tutaj )

Lord, F. (1953),
„O statystycznym traktowaniu liczb piłkarskich”,
American Psychologist , 8 , s. 750–751

(Rok tego artykułu jest błędnie podany w odniesieniach do wersji artykułu Vellemana i Wilkinsona, do którego odsyłam, ale do którego poprawnie się odwołuję w treści artykułu)

Glen_b - Przywróć Monikę
źródło
Dzięki. Bardzo dokładna odpowiedź. Myślałem w tym kierunku, ale wiele razy badając te rzeczy, wydaje się, że są one konkretne i osiągnięto konsensus. Właśnie dlatego tu trafiłem.
Użytkownik 42
Typologia Stevensa była dyskutowana i kwestionowana od czasu pierwszej publikacji. To czasami pomocne ramy, a nie twierdzenie.
Glen_b
Czy jest jakiś „nowy ulubiony” oprócz Stevensa i Mostellera? W przykładzie poziomów / przepływów, jeśli dobrze cię rozumiem, oba mają ten sam typ, ale muszą być traktowane inaczej? Czy potrafisz wyjaśnić tę różnicę? A w jaki sposób np. Log transformacji wartości pasuje do tej typologii? Dzięki.
Erich Schubert
1. Nie znam żadnych niedawnych prób ich wykonania - i myślę, że niekoniecznie są one użyteczne, ponieważ mają tendencję do nakłaniania ludzi do mniej odpowiednich analiz (patrz przykład Pański dla zabawkowego przykładu, ale konsekwencje dla analiz są bardzo realne - te listy analiz według rodzaju nie powodują końca okropnej analizy statystycznej, jednocześnie odcinając ogromną liczbę statystyk od możliwości rozważenia w odpowiednich sytuacjach). .. ctd
Przywróć Monikę
ctd ... 2. Jeden przykład tego, jak poziomy i przepływy są zupełnie różne: Zauważ, że jeśli spojrzałbyś na poziom każdego dnia, dzisiejszy poziom byłby poprzednim poziomem plus pośredni wpływ lub wypływ (lub suma obu , jeśli oba są możliwe). Pomiary poziomu są więc z konieczności zależne, często bardzo. Traktowanie ich tak, jakby byli niezależni, nie ma sensu - ale widzę, że ludzie robią to cały czas. 3. Nie jestem do końca pewien, o co pytasz w logu. Czy możesz być bardziej jednoznaczny w tej sprawie? Jaką typologię (zauważ, że wymieniam więcej niż jedną)?
Glen_b
1

Rodzaj danych jest powiązany, ale nie identyczny z typem zmiennej. Większość przypadków jest taka sama, ale nie musi tak być.

Na przykład, jeśli pobierzesz N próbek z rozkładu normalnego. Można by pomyśleć, że są to dane liczbowe (stosunek lub skala). Ale mogę też powiedzieć, że jest to zmienna kategorialna z N różnymi kategoriami, z częstotliwością 1 dla każdej kategorii. Wygląda głupio, ale jest to również poprawna zmienna.

Witaj świecie
źródło
Wydaje się to trochę sprzeczne ze Stevensem (któremu przypisuje się sformułowanie tej typologii), który napisał: „prawdziwym problemem jest znaczenie pomiaru”. Chociaż zawsze możesz traktować takie dane jako nominalne, to nie czyni ich nominalnymi w ocenie Stevensa. Jego artykuł jest dostępny na stronie gaius.fpce.uc.pt/niips/novoplano/mip1/mip1_201314/scales/… .
whuber