Technika redukcji danych w celu identyfikacji typów krajów

11

Prowadzę wstępny kurs z geografii ekonomicznej. Aby pomóc moim studentom w lepszym zrozumieniu rodzajów krajów obecnych we współczesnej gospodarce światowej i docenieniu technik ograniczania danych, chcę skonstruować zadanie, które stworzy typologię różnych rodzajów krajów (np. wartość dodana MFG długa żywotność; eksporter zasobów naturalnych o wysokich dochodach średni i średni oczekiwany okres życia; Niemcy są elementem pierwszego rodzaju, a Jemen przykładem drugiego rodzaju). Wykorzystałoby to publicznie dostępne dane UNDP (które, o ile dobrze pamiętam, zawierają dane społeczno-ekonomiczne dotyczące nieco mniej niż 200 krajów; niestety nie są dostępne dane regionalne).

Przed tym przypisaniem byłby inny, który prosi je (używając tych samych - w dużej mierze danych przedziału lub współczynnika - danych) do zbadania korelacji między tymi samymi zmiennymi.

Mam nadzieję, że najpierw opracują intuicję dotyczącą rodzajów związków między różnymi zmiennymi (np. Pozytywny związek między oczekiwaną długością życia a [różnymi wskaźnikami] bogactwa; pozytywny związek między bogactwem a różnorodnością eksportu). Następnie, stosując technikę redukcji danych, elementy lub czynniki miałyby pewien intuicyjny sens (np. Czynnik / komponent 1 ujmuje znaczenie bogactwa; czynnik / komponent 2 ujmuje znaczenie edukacji).

Biorąc pod uwagę, że są to studenci drugiego do czwartego roku, często z ograniczonym kontaktem z myśleniem analitycznym bardziej ogólnie, jaką technikę pojedynczej redukcji danych zaproponowałbyś jako najbardziej odpowiednią dla drugiego zadania? Są to dane dotyczące populacji, więc statystyki wnioskowania (p-vlaues itp.) Nie są tak naprawdę konieczne.

rabidotter
źródło

Odpowiedzi:

10

Jako metoda eksploracyjna PCA jest dobrym pierwszym wyborem dla zadania takiego jak ta IMO. Byłoby też miło, gdyby zostali na to narażeni; wygląda na to, że wiele z nich nie widziało wcześniej głównych komponentów.

Jeśli chodzi o dane, wskazałbym również wskaźniki Banku Światowego, które są niezwykle kompletne: http://data.worldbank.org/indicator .

JMS
źródło
5

Zgadzam się z JMS, a PCA wydaje się dobrym pomysłem po zbadaniu początkowych korelacji i wykresów rozrzutu między zmiennymi dla każdego powiatu. Wątek zawiera kilka użytecznych sugestii dotyczących wprowadzenia PCA w kategoriach niematematycznych.

Sugerowałbym również wykorzystanie małych wielu map do wizualizacji rozkładów przestrzennych każdej ze zmiennych (i jest kilka dobrych przykładów w tym pytaniu na stronie gis.se). Myślę, że działają one szczególnie dobrze, jeśli masz ograniczoną liczbę jednostek powierzchni do porównania i używasz dobrej kolorystyki (jak ten przykład na blogu Andrew Gelmana).

Niestety natura dowolnego zestawu danych „krajów świata”, który, jak podejrzewam, często skutkuje rzadkimi danymi (tj. Dużą ilością brakujących krajów), co utrudnia wizualizację geograficzną. Ale takie techniki wizualizacji powinny być przydatne również w innych sytuacjach.

Andy W.
źródło
+1, ładne referencje. Interesujące może być także porównanie map zmiennych z mapami wyników PCA.
JMS
Link do wprowadzenia PCA w kategoriach niematematycznych był przydatny, ponieważ pomógł mi wyczuć subtelną różnicę między PCA a analizą czynnikową. Sugestie GIS / mapowania są również bardzo przydatne, ponieważ nie myślałem o wizualizacji przestrzennego rozkładu zmiennych. Dla tej populacji studentów pomogłoby im to uchwycić podstawowe struktury światowej gospodarki w sposób, którego nie zrobiłyby wszystkie moje bla bla bla.
rabidotter
1
Ładne fabuły często biją bla bla bla :)
JMS
4

Szybko dodana uwaga: Niezależnie od tego, której z powyższych technik użyjesz, najpierw sprawdzisz rozkłady swoich zmiennych, ponieważ wiele z nich będzie „wymagało” przekształcenia ich za pomocą logarytmu. Takie postępowanie ujawni niektóre relacje znacznie lepiej niż przy użyciu oryginalnych zmiennych.

rolando2
źródło
3
+1 Zwykle taka odpowiedź powinna zostać opublikowana jako komentarz, ale rada jest tutaj tak ważna, że ​​korzysta z każdego możliwego nacisku. W szczególności wyniki PCA będą prawdopodobnie nieinformacyjne, dopóki zmienne nie zostaną odpowiednio ponownie wyrażone.
whuber
2

Możesz użyć rozkładu CUR jako alternatywy dla PCA. W przypadku rozkładu CUR możesz odwołać się do [1] lub [2]. W rozkładzie CUR C oznacza wybrane kolumny, R oznacza wybrane wiersze, a U jest macierzą łączącą. Pozwólcie, że sparafrazuję intuicję stojącą za rozkładem CUR, jak podano w [1];

ujavja

[(1/2)age − (1/ √2)height + (1/2)income]

bycie jednym z istotnych nieskorelowanych „czynników” lub „cech” z zestawu danych cech ludzkich, nie jest szczególnie pouczające ani znaczące.

Zaletą CUR jest to, że kolumny bazowe są rzeczywistymi kolumnami (lub wierszami) i lepiej je interpretować w przeciwieństwie do PCA (który używa transkatowanego SVD).

Algorytm podany w [1] jest łatwy do wdrożenia i można z nim grać, zmieniając próg błędu i uzyskując różną liczbę zasad.

[1] MW Mahoney i P. Drineas, „Dekompozycje macierzy CUR dla lepszej analizy danych.”, Proceedings of National Academy of Sciences of the United States of America, vol. 106, stycznia 2009, s. 697-702.

[2] J. Sun, Y. Xie, H. Zhang i C. Faloutsos, „Mniej znaczy więcej: kompaktowy rozkład macierzy dla dużych rzadkich grafów”, Materiały z siódmej międzynarodowej konferencji SIAM na temat eksploracji danych, Citeseer, 2007, s. . 366

petrichor
źródło
2

W zależności od celów klasyfikację rejestrów w grupach można najlepiej osiągnąć za pomocą metody grupowania. W przypadku stosunkowo niewielkiej liczby przypadków najlepiej nadaje się hierarchiczne grupowanie, przynajmniej w fazie eksploracyjnej, podczas gdy w przypadku bardziej dopracowanego rozwiązania można spojrzeć na jakiś iteracyjny proces, taki jak K-średnie. Zgodnie z używanym oprogramowaniem możliwe jest również użycie procesu, który jest w SPSS, ale nie wiem gdzie indziej, zwany klastrowaniem dwuetapowym, który jest szybki, choć nieprzejrzysty i wydaje się dawać dobre wyniki.

Analiza skupień daje rozwiązanie klasyfikacyjne, które maksymalizuje wariancję między grupami, jednocześnie minimalizując wariancję wewnątrz tych grup. Prawdopodobnie przyniesie też wyniki, które są łatwiejsze do interpretacji.

Tomas Boncompte
źródło
2

ρ2)Hmiscvarclus

Frank Harrell
źródło
1

Inną opcją byłoby użycie samoorganizujących się map (SOM). Masz pojęcie o tym, jakiego oprogramowania będą używać studenci? Wiem, że na przykład R ma kilka implementacji SOM. SOM może jednak zawieść test „czynniki składowe mają intuicyjny sens”. (Niekoniecznie prawda z PCA, albo ...)

Wayne
źródło
Przepraszam za opóźnienie w odpowiedzi. Uczniowie będą korzystać z programu Minitab 16, który ma niektóre z bardziej tradycyjnych technik redukcji danych wymienionych powyżej. Zajrzę do samoorganizujących się map, ale wątpię, czy byłyby odpowiednie dla tego rodzaju studentów, których dostaję na drugim roku studiów licencjackich.
rabidotter