Przeszukano wysokie i niskie i nie byłem w stanie dowiedzieć się, co AUC, podobnie jak w przypadku prognozowania, oznacza lub
Klasyfikacja statystyczna to problem identyfikacji subpopulacji, do której należą nowe obserwacje, w przypadku których tożsamość subpopulacji nie jest znana, na podstawie zestawu danych szkoleniowych zawierających obserwacje, których subpopulacja jest znana. Dlatego te klasyfikacje wykażą zmienne zachowanie, które można zbadać za pomocą statystyk.
Przeszukano wysokie i niskie i nie byłem w stanie dowiedzieć się, co AUC, podobnie jak w przypadku prognozowania, oznacza lub
Używam tego K.KK -krotnie krzyżowe sprawdzanie kilka razy, aby ocenić skuteczność niektórych algorytmów uczenia się, ale zawsze byłem zdziwiony, jak mam wybrać wartość K.KK . Często widziałem i stosowałem wartość K.= 10K=10K = 10 , ale wydaje mi się to całkowicie arbitralne, a teraz po prostu...
Czytam książkę do eksploracji danych, w której wspomniano o statystyce Kappa jako sposobie oceny wydajności prognozowania klasyfikatorów. Jednak po prostu nie mogę tego zrozumieć. Sprawdziłem także Wikipedię, ale to też nie pomogło: https://en.wikipedia.org/wiki/Cohen's_kappa . W jaki sposób kappa...
To jest ogólne pytanie, które zostało tutaj zadane pośrednio wiele razy, ale nie ma jednej wiarygodnej odpowiedzi. Byłoby wspaniale mieć szczegółową odpowiedź na to pytanie. Dokładność , odsetek poprawnych klasyfikacji wśród wszystkich klasyfikacji, jest bardzo prostą i bardzo „intuicyjną” miarą,...
Zastanawiam się, jak obliczyć precyzję i przywołać za pomocą macierzy nieporozumień dla problemu klasyfikacji wielu klas. W szczególności obserwację można przypisać tylko do najbardziej prawdopodobnej klasy / etykiety. Chciałbym obliczyć: Precyzja = TP / (TP + FP) Recall = TP / (TP + FN) dla...
Interesuje mnie ręczne obliczanie pola pod krzywą (AUC) lub statystyki c dla binarnego modelu regresji logistycznej. Na przykład w zbiorze danych sprawdzania poprawności mam prawdziwą wartość zmiennej zależnej retencji (1 = zachowane; 0 = nie zachowane), a także przewidywany status retencji dla...
Używam R, aby wykonać grupowanie K-oznacza. Używam 14 zmiennych do uruchomienia K-średnich Jaki jest ładny sposób na wykreślenie wyników K-średnich? Czy są jakieś istniejące wdrożenia? Czy posiadanie 14 zmiennych komplikuje wykreślanie wyników? Znalazłem coś o nazwie GGcluster, które wygląda...
Trochę się mylę co do wyboru funkcji i uczenia maszynowego i zastanawiałem się, czy możesz mi pomóc. Mam zestaw danych mikromacierzy, który jest podzielony na dwie grupy i ma tysiące funkcji. Moim celem jest uzyskanie niewielkiej liczby genów (moich cech) (10–20) w sygnaturze, którą teoretycznie...
Rozumiem podstawy tego, czym jest cel Maszyn Wektorów Wsparcia w zakresie klasyfikacji zestawu danych wejściowych na kilka różnych klas, ale nie rozumiem niektórych drobiazgowych szczegółów. Po pierwsze, jestem nieco zdezorientowany użyciem Zmiennych Slack. Jaki jest ich cel? Robię problem z...
Używam algorytmu losowego lasu jako solidnego klasyfikatora dwóch grup w badaniu mikromacierzy z tysiącami funkcji. Jaki jest najlepszy sposób przedstawienia losowego lasu, aby było wystarczająco dużo informacji, aby można go było odtworzyć w formie papierowej? Czy istnieje metoda kreślenia w R,...
Ponieważ regresja logistyczna jest statystycznym modelem klasyfikacji zajmującym się zmiennymi zależnymi kategorycznie, dlaczego nie nazywa się to klasyfikacją logistyczną ? Czy nazwa „regresji” nie powinna być zarezerwowana dla modeli zajmujących się ciągłymi zmiennymi...
W ostatnich latach splotowe sieci neuronowe (lub ogólnie głębokie sieci neuronowe) stały się coraz głębsze, a najnowocześniejsze sieci przechodzą z 7 warstw ( AlexNet ) do 1000 warstw ( sieci resztkowych) na przestrzeni 4 lat Przyczyną wzrostu wydajności z głębszej sieci jest to, że można się...
Zastanawiam się, jak obliczyć dokładność i przywołać miary dla wieloklasowej klasyfikacji wielopłaszczyznowej, tj. Klasyfikacji, w której występują więcej niż dwie etykiety i gdzie każde wystąpienie może mieć wiele
Innymi słowy, zamiast mieć problem z dwiema klasami, mam do czynienia z 4 klasami i nadal chciałbym oceniać wydajność za pomocą
Co decyduje o wyborze funkcji (Softmax vs Sigmoid) w klasyfikatorze logistycznym? Załóżmy, że istnieją 4 klasy wyjściowe. Każda z powyższych funkcji podaje prawdopodobieństwo, że każda klasa będzie poprawnym wyjściem. Który wziąć do
Załóżmy, że mamy kogoś, kto buduje model predykcyjny, ale ten ktoś niekoniecznie jest dobrze obeznany z właściwymi zasadami statystyki lub uczenia maszynowego. Może pomagamy tej osobie w trakcie nauki, a może ta osoba korzysta z pakietu oprogramowania, który wymaga minimalnej wiedzy. Teraz ta...
Chciałbym mieć tyle algorytmów, które wykonują to samo zadanie, co regresja logistyczna. To są algorytmy / modele, które mogą przewidywać odpowiedź binarną (Y) za pomocą zmiennej objaśniającej (X). Byłbym zadowolony, jeśli po nazwiesz algorytm, pokażesz również, jak go zaimplementować w R. Oto...
Mieliśmy już wiele pytań na temat niezrównoważonych danych podczas korzystania z regresji logistycznej , SVM , drzew decyzyjnych , tworzenia worków i wielu innych podobnych pytań, co sprawia, że jest to bardzo popularny temat! Niestety, każde z pytań wydaje się być specyficzne dla algorytmu i nie...
Jaka jest różnica między problemem wieloklasowym a problemem
Mam zestaw danych w postaci (funkcje, wyjście binarne 0 lub 1), ale 1 zdarza się dość rzadko, więc po prostu zawsze przewidując 0, uzyskuję dokładność między 70% a 90% (w zależności od konkretnych danych, na które patrzę ). Metody ML dają mi tę samą dokładność i uważam, że powinny być pewne...