Statystyki i duże zbiory danych

11
Co to znaczy, że wszystkie krawędzie sieci / wykresu w świecie rzeczywistym są statystycznie równie prawdopodobne, że zdarzy się to przez przypadek?

Korzystałem z metody ekstrakcji sieci szkieletowej opisanej w tym artykule: http://www.pnas.org/content/106/16/6483.abstract Zasadniczo autorzy proponują metodę opartą na statystykach, która daje prawdopodobieństwo dla każdej krawędzi na wykresie, że krawędź mogła wystąpić przypadkowo. Używam...

11
Analiza i regresja głównych składników w języku Python

Próbuję wymyślić, jak odtworzyć w Pythonie niektóre prace, które wykonałem w SAS. Korzystając z tego zestawu danych , gdzie problemem jest wielokoliniowość, chciałbym przeprowadzić analizę głównych składników w Pythonie. Przyjrzałem się scikit-learn i statsmodels, ale nie jestem pewien, jak...

11
Czy wartości skalowania w liniowej analizie dyskryminacyjnej (LDA) można wykorzystać do wykreślenia zmiennych objaśniających na liniowych dyskryminatorach?

Korzystając z dwójki wartości uzyskanych w wyniku analizy głównego składnika, możliwe jest zbadanie zmiennych objaśniających, które składają się na każdy podstawowy składnik. Czy jest to również możliwe w przypadku liniowej analizy dyskryminacyjnej? Podane przykłady wykorzystują Dane to „Dane Iris...

11
Test Friedmana vs test Wilcoxona

Usiłuję ocenić wydajność nadzorowanego algorytmu klasyfikacji uczenia maszynowego. Obserwacje dzielą się na klasy nominalne (na razie 2, jednak chciałbym uogólnić to na problemy wielu klas), zaczerpnięte z populacji 99 osób. Jednym z pytań, na które chciałbym odpowiedzieć, jest to, czy algorytm...