Rozpoznawanie działalności człowieka za pomocą problemu z zestawem danych smartfona

Jestem nowy w tej społeczności i mam nadzieję, że moje pytanie będzie tutaj pasować. W ramach mojego studiów licencjackich z zakresu analizy danych postanowiłem wykonać projekt dotyczący rozpoznawania działalności człowieka za pomocą zestawów danych ze smartfona. Jeśli chodzi o mnie, ten temat dotyczy maszyn uczenia maszynowego i obsługi wektorów. Nie znam jeszcze tej technologii, więc potrzebuję pomocy.

Postanowiłem podążać za tym pomysłem projektu http://www.inf.ed.ac.uk/teaching/courses/dme/2014/datasets.html (pierwszy projekt na górze) Celem projektu jest określenie, jaką aktywność ma dana osoba angażowanie się (np. WALKING, WALKING_UPSTAIRS, WALKING_DOWNSTAIRS, SITTING, STANDING, LAYING) z danych zarejestrowanych przez smartfon (Samsung Galaxy S II) w talii obiektu. Wykorzystując wbudowany akcelerometr i żyroskop, dane obejmują 3-osiowe przyspieszenie liniowe i 3-osiową prędkość kątową przy stałej częstotliwości 50 Hz.

Cały zestaw danych znajduje się w jednym folderze z opisem i etykietami funkcji. Dane są dzielone dla plików „testowych” i „kolejowych”, w których dane są reprezentowane w tym formacie:

  2.5717778e-001 -2.3285230e-002 -1.4653762e-002 -9.3840400e-001 -9.2009078e-001 -6.6768331e-001 -9.5250112e-001 -9.2524867e-001 -6.7430222e-001 -8.9408755e-001 -5.5457721e-001 -4.6622295e-001  7.1720847e-001  6.3550240e-001  7.8949666e-001 -8.7776423e-001 -9.9776606e-001 -9.9841381e-001 -9.3434525e-001 -9.7566897e-001 -9.4982365e-001 -8.3047780e-001 -1.6808416e-001 -3.7899553e-001  2.4621698e-001  5.2120364e-001 -4.8779311e-001  4.8228047e-001 -4.5462113e-002  2.1195505e-001 -1.3489443e-001  1.3085848e-001 -1.4176313e-002 -1.0597085e-001  7.3544013e-002 -1.7151642e-001  4.0062978e-002  7.6988933e-002 -4.9054573e-001 -7.0900265e-001

A to tylko bardzo mała próbka zawartości pliku.

Naprawdę nie wiem, co reprezentują te dane i jak można je interpretować. Z jakich narzędzi będę musiał korzystać w celu analizy, klasyfikacji i grupowania danych? Czy jest jakiś sposób, aby umieścić te dane w programie Excel z dołączonymi etykietami i na przykład użyć R lub Pythona, aby wyodrębnić przykładowe dane i pracować nad tym?

Wszelkie wskazówki / wskazówki będą mile widziane.

bigdata machine-learning databases clustering data-mining Jakubee
źródło

Odpowiedzi:

Definicje zestawów danych znajdują się na stronie tutaj:

Informacje o atrybucie na dole

lub możesz zobaczyć w folderze ZIP plik o nazwie activity_labels, który zawiera nagłówki kolumn, upewnij się, że dokładnie przeczytałeś README, zawiera on kilka dobrych informacji. Możesz łatwo wprowadzić .csvplik w R za pomocą read.csvpolecenia.

Na przykład, jeśli nazwiesz swój plik samsungdata, możesz otworzyć R i uruchomić następującą komendę:

data <- read.csv("directory/where/file/is/located/samsungdata.csv", header = TRUE)

Lub jeśli jesteś już w katalogu roboczym w R, możesz po prostu uruchomić następujące

data <- read.csv("samsungdata.csv", header = TRUE)

Gdzie nazwę datamożna zmienić na dowolną, którą chcesz nazwać swoim zestawem danych.

MCP_infiltrator
źródło

Widzę. Przestudiowałem plik README, ale nadal nie mogę zrozumieć, w jaki sposób dane mogą być odczytywane. Na przykład plik train / X_train.txt' reprezentuje zestaw szkoleniowy (przykładowe dane, które pokazałem w poście, pochodzą z tego pliku).

Jakubee

Wydaje mi się, że zestaw danych jest dość szeroki, w wierszu znajduje się 561 zmiennych wymienionych w pliku features.txt. Wierzę, że o to ci chodzi.

MCP_infiltrator

Każda zmienna z pliku „features” odpowiada każdej kolumnie np. W pliku „x-test.txt”, czy też się mylę?

Jakubee

Tak to rozumiem. Z tego, co mogłem zebrać z README, jest to, co zawiera plik.

MCP_infiltrator

@Jububee Tak. W features.txtpliku znajduje się 561 nazw wierszy / zmiennych i 561 kolumn w X_train.txtpliku, po jednym dla każdej zmiennej.

Marco13

Wygląda na to, że ten (lub bardzo podobny zestaw danych) jest używany do kursów Coursera. Czyszczenie tego zestawu danych jest zadaniem uzyskiwania i czyszczenia danych , ale służy również do analizy przypadków analizy danych eksploracyjnych . Wideo z tego studium przypadku jest dostępne w filmach z 4 tygodnia kursu EDA. Może ci to pomóc zacząć od tych danych.

Damian Melniczuk
źródło