Prowadzę wstępny kurs z geografii ekonomicznej. Aby pomóc moim studentom w lepszym zrozumieniu rodzajów krajów obecnych we współczesnej gospodarce światowej i docenieniu technik ograniczania danych, chcę skonstruować zadanie, które stworzy typologię różnych rodzajów krajów (np. wartość dodana MFG długa żywotność; eksporter zasobów naturalnych o wysokich dochodach średni i średni oczekiwany okres życia; Niemcy są elementem pierwszego rodzaju, a Jemen przykładem drugiego rodzaju). Wykorzystałoby to publicznie dostępne dane UNDP (które, o ile dobrze pamiętam, zawierają dane społeczno-ekonomiczne dotyczące nieco mniej niż 200 krajów; niestety nie są dostępne dane regionalne).
Przed tym przypisaniem byłby inny, który prosi je (używając tych samych - w dużej mierze danych przedziału lub współczynnika - danych) do zbadania korelacji między tymi samymi zmiennymi.
Mam nadzieję, że najpierw opracują intuicję dotyczącą rodzajów związków między różnymi zmiennymi (np. Pozytywny związek między oczekiwaną długością życia a [różnymi wskaźnikami] bogactwa; pozytywny związek między bogactwem a różnorodnością eksportu). Następnie, stosując technikę redukcji danych, elementy lub czynniki miałyby pewien intuicyjny sens (np. Czynnik / komponent 1 ujmuje znaczenie bogactwa; czynnik / komponent 2 ujmuje znaczenie edukacji).
Biorąc pod uwagę, że są to studenci drugiego do czwartego roku, często z ograniczonym kontaktem z myśleniem analitycznym bardziej ogólnie, jaką technikę pojedynczej redukcji danych zaproponowałbyś jako najbardziej odpowiednią dla drugiego zadania? Są to dane dotyczące populacji, więc statystyki wnioskowania (p-vlaues itp.) Nie są tak naprawdę konieczne.
źródło
Szybko dodana uwaga: Niezależnie od tego, której z powyższych technik użyjesz, najpierw sprawdzisz rozkłady swoich zmiennych, ponieważ wiele z nich będzie „wymagało” przekształcenia ich za pomocą logarytmu. Takie postępowanie ujawni niektóre relacje znacznie lepiej niż przy użyciu oryginalnych zmiennych.
źródło
Możesz użyć rozkładu CUR jako alternatywy dla PCA. W przypadku rozkładu CUR możesz odwołać się do [1] lub [2]. W rozkładzie CUR C oznacza wybrane kolumny, R oznacza wybrane wiersze, a U jest macierzą łączącą. Pozwólcie, że sparafrazuję intuicję stojącą za rozkładem CUR, jak podano w [1];
Zaletą CUR jest to, że kolumny bazowe są rzeczywistymi kolumnami (lub wierszami) i lepiej je interpretować w przeciwieństwie do PCA (który używa transkatowanego SVD).
Algorytm podany w [1] jest łatwy do wdrożenia i można z nim grać, zmieniając próg błędu i uzyskując różną liczbę zasad.
[1] MW Mahoney i P. Drineas, „Dekompozycje macierzy CUR dla lepszej analizy danych.”, Proceedings of National Academy of Sciences of the United States of America, vol. 106, stycznia 2009, s. 697-702.
[2] J. Sun, Y. Xie, H. Zhang i C. Faloutsos, „Mniej znaczy więcej: kompaktowy rozkład macierzy dla dużych rzadkich grafów”, Materiały z siódmej międzynarodowej konferencji SIAM na temat eksploracji danych, Citeseer, 2007, s. . 366
źródło
W zależności od celów klasyfikację rejestrów w grupach można najlepiej osiągnąć za pomocą metody grupowania. W przypadku stosunkowo niewielkiej liczby przypadków najlepiej nadaje się hierarchiczne grupowanie, przynajmniej w fazie eksploracyjnej, podczas gdy w przypadku bardziej dopracowanego rozwiązania można spojrzeć na jakiś iteracyjny proces, taki jak K-średnie. Zgodnie z używanym oprogramowaniem możliwe jest również użycie procesu, który jest w SPSS, ale nie wiem gdzie indziej, zwany klastrowaniem dwuetapowym, który jest szybki, choć nieprzejrzysty i wydaje się dawać dobre wyniki.
Analiza skupień daje rozwiązanie klasyfikacyjne, które maksymalizuje wariancję między grupami, jednocześnie minimalizując wariancję wewnątrz tych grup. Prawdopodobnie przyniesie też wyniki, które są łatwiejsze do interpretacji.
źródło
Hmisc
varclus
źródło
Inną opcją byłoby użycie samoorganizujących się map (SOM). Masz pojęcie o tym, jakiego oprogramowania będą używać studenci? Wiem, że na przykład R ma kilka implementacji SOM. SOM może jednak zawieść test „czynniki składowe mają intuicyjny sens”. (Niekoniecznie prawda z PCA, albo ...)
źródło