Jakie są najlepsze (zalecane) kroki przetwarzania wstępnego przed wykonaniem
Jakie są najlepsze (zalecane) kroki przetwarzania wstępnego przed wykonaniem
Zastanawiam się, czy ktoś mógłby zasugerować, jakie są dobre punkty wyjścia, jeśli chodzi o wykrywanie społeczności / partycjonowanie / grupowanie wykresów na wykresie z ważonymi , nieukierunkowanymi krawędziami. Wykres ma około 3 miliony krawędzi, a każda krawędź wyraża stopień podobieństwa między...
Jakie byłoby podejście do korzystania z dynamicznego dopasowania czasu (DTW) w celu grupowania szeregów czasowych? Czytałem o DTW jako sposobie znajdowania podobieństwa między dwoma szeregami czasowymi, podczas gdy można je przesunąć w czasie. Czy mogę użyć tej metody jako miary podobieństwa dla...
Mam zestaw danych szeregów czasowych. Każda seria obejmuje ten sam okres, chociaż rzeczywiste daty w każdej serii czasowej mogą nie być dokładnie w jednej linii. To znaczy, jeśli szeregi czasowe miałyby zostać odczytane w matrycy 2D, wyglądałoby to tak: date T1 T2 T3 .... TN 1/1/01 100 59 42...
Jednym z największych problemów związanych z analizą skupień jest to, że może się zdarzyć, że będziemy musieli wyciągnąć odmienne wnioski, gdy oprą się na różnych zastosowanych metodach klastrowania (w tym różnych metodach łączenia w hierarchicznym klastrze). Chciałbym poznać Twoją opinię na ten...
W moim zestawie danych mamy zarówno zmienne ciągłe, jak i naturalnie dyskretne. Chcę wiedzieć, czy możemy przeprowadzać hierarchiczne grupowanie przy użyciu obu typów zmiennych. A jeśli tak, jaki pomiar odległości jest
Próbuję użyć wykresu sylwetki, aby określić liczbę klastrów w moim zestawie danych. Biorąc pod uwagę zestaw danych Train , użyłem następującego kodu Matlab Train_data = full(Train); Result = []; for num_of_cluster = 1:20 centroid = kmeans(Train_data,num_of_cluster,'distance','sqeuclid'); s =...
Drodzy wszyscy - zauważyłem coś dziwnego, czego nie potrafię wyjaśnić, prawda? Podsumowując: ręczne podejście do obliczania przedziału ufności w modelu regresji logistycznej oraz funkcja R confint()dają różne wyniki. Przechodziłem przez regresję logistyczną stosowaną przez Hosmer & Lemeshow...
W ostatnim zadaniu powiedziano nam, abyśmy używali PCA na cyfrach MNIST, aby zmniejszyć wymiary z 64 (8 x 8 obrazów) do 2. Następnie musieliśmy grupować cyfry za pomocą Gaussian Mixture Model. PCA wykorzystujące tylko 2 główne komponenty nie daje wyraźnych klastrów, w wyniku czego model nie jest w...
O ile mogę stwierdzić, SOM w stylu Kohonen osiągnęły szczyt około 2005 roku i ostatnio nie spotkały się z tak dużą przychylnością. Nie znalazłem żadnego artykułu, który mówi, że SOM zostały uwzględnione inną metodą lub okazały się równoważne z czymś innym (w każdym razie w większych wymiarach). Ale...
Wykonuję hierarchiczne grupowanie danych zebranych i przetworzonych ze zrzutu danych reddit w Google BigQuery. Mój proces jest następujący: Pobierz najnowsze 1000 postów w / r / politics Zbierz wszystkie komentarze Przetwarzaj dane i oblicz n x mmacierz danych (n: users / samples, m: posts /...
Mam zestaw danych X, który ma 10 wymiarów, z których 4 to wartości dyskretne. W rzeczywistości te 4 zmienne dyskretne są porządkowe, tzn. Wyższa wartość implikuje wyższy / lepszy semantyczny. 2 z tych zmiennych dyskretnych są jakościowe w tym sensie, że dla każdej z tych zmiennych odległość np. Od...
Kontekst : Chcę podzielić obszary mieszkalne miasta na grupy na podstawie ich cech społeczno-ekonomicznych, w tym gęstości zabudowy, gęstości zaludnienia, powierzchni zieleni, ceny mieszkań, liczby szkół / ośrodków zdrowia / ośrodków opieki dziennej itp. Chcę zrozumieć, na ile różnych grup można...
Znalazłem obszerną literaturę proponującą wszelkiego rodzaju kryteria (np. Glenn i in. 1985 (pdf) i Jung i in. 2002 (pdf)). Jednak większość z nich nie jest tak łatwa do wdrożenia (przynajmniej z mojej perspektywy). Korzystam z scipy.cluster.hierarchy, aby uzyskać hierarchię klastrów, a teraz...
Mam pod ręką następujący problem: Mam bardzo długą listę słów, ewentualnie imion, nazwisk itp. Muszę utworzyć listę słów w taki sposób, aby podobne słowa, na przykład słowa o podobnej odległości edycji (Levenshtein) pojawiły się w ten sam klaster. Na przykład „algorytm” i „alogrithm” powinny mieć...
Jakie są różnice w wnioskach, które można wyciągnąć z analizy ukrytej klasy (LCA) w porównaniu z analizą skupień? Czy to prawda, że LCA zakłada ukrytą zmienną, która powoduje powstanie klas, podczas gdy analiza skupień jest empirycznym opisem skorelowanych atrybutów z algorytmu klastrowania?...
Wyjaśnię mój problem na przykładzie. Załóżmy, że chcesz przewidzieć dochód danej osoby na podstawie niektórych atrybutów: {Wiek, płeć, kraj, region, miasto}. Masz taki zestaw danych szkoleniowych train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4,...
Właśnie natknąłem się na ten artykuł , który opisuje, jak obliczyć powtarzalność (aka niezawodność, aka korelacja wewnątrzklasowa) pomiaru za pomocą modelowania efektów mieszanych. Kod R byłby następujący: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc =...
[Początkowy tytuł „Pomiar podobieństwa dla hierarchicznych drzew klastrowych” został później zmieniony przez @ttnphns, aby lepiej odzwierciedlić temat] Przeprowadzam szereg hierarchicznych analiz skupień na ramce danych rekordów pacjentów (np. Podobnie do
Mam macierz, w której (i, j) mówi mi, ile razy przeglądałem stronę j. Istnieje 27 000 osób i 95 000 stron. Chciałbym mieć garść „wymiarów” lub „aspektów” w przestrzeni stron, które odpowiadałyby zestawom stron często oglądanych razem. Moim ostatecznym celem jest wtedy, aby móc obliczyć, jak często...