Zastanawiałem się, czy ktokolwiek mógłby wyjaśnić różnicę między wyważoną dokładnością b_acc = (sensitivity + specificity)/2 oraz wynik f1, który jest: f1 = 2*precision*recall/(precision + recall)
Zastanawiałem się, czy ktokolwiek mógłby wyjaśnić różnicę między wyważoną dokładnością b_acc = (sensitivity + specificity)/2 oraz wynik f1, który jest: f1 = 2*precision*recall/(precision + recall)
Chcę spróbować użyć maszyn wektorów wsparcia (SVM) w moim zestawie danych. Zanim jednak spróbowałem rozwiązać problem, zostałem ostrzeżony, że maszyny SVM nie radzą sobie dobrze z bardzo niezrównoważonymi danymi. W moim przypadku mogę mieć aż 95-98% zera i 2-5% 1. Próbowałem znaleźć zasoby, które...
Mam zestaw danych z kilkoma milionami wierszy i ~ 100 kolumnami. Chciałbym wykryć około 1% przykładów w zestawie danych, które należą do wspólnej klasy. Mam ograniczenie minimalnej precyzji, ale z powodu bardzo asymetrycznego kosztu nie jestem zbytnio zainteresowany żadnym konkretnym wycofaniem (o...
Czy SVM obsługuje niezrównoważony zestaw danych? Czy to jakieś parametry (takie jak C lub koszt błędnej klasyfikacji) obsługujące niezrównoważony zestaw
Próbuję zwiększyć gradient w zbiorze danych z częstością zdarzeń około 1% przy użyciu Enterprise Minera, ale nie daje żadnego wyniku. Moje pytanie brzmi: skoro jest to podejście oparte na drzewku decyzyjnym, czy w ogóle warto stosować zwiększanie gradientu przy tak niskim...
Przede wszystkim chciałbym opisać niektóre popularne układy używane w książkach Data Mining, wyjaśniając, jak radzić sobie z niezrównoważonymi zestawami danych . Zwykle główna sekcja nosi nazwę Niezrównoważone zestawy danych i obejmują te dwie podsekcje: Klasyfikacja wrażliwa na koszty i Techniki...
PRZEDMOWA: Nie dbam o zalety zastosowania odcięcia lub nie, ani o to, jak należy wybrać odcięcie. Moje pytanie jest czysto matematyczne i wynika z ciekawości. Regresja logistyczna modeluje prawdopodobieństwo warunkowe tylne klasy A w porównaniu z klasą B i pasuje do hiperpłaszczyzny, w której...
Próbuję rozwiązać zadanie zwane wykrywaniem pieszych i trenuję binarny clasifer na dwóch kategoriach pozytywnych - ludzie, negatywne - tło. Mam zestaw danych: liczba wyników dodatnich = 3752 liczba ujemna = 3800 Używam train \ test split 80 \ 20% i RandomForestClassifier z scikit-learn z...
Chciałbym przetestować mój wyszkolony model na niezrównoważonym zbiorze danych. Czy są dostępne algorytmy do generowania danych syntetycznych ze zbilansowanego zbioru danych (spam / nie
Próbuję stworzyć detektor obiektów, które występują bardzo rzadko (na zdjęciach), planując użyć binarnego klasyfikatora CNN stosowanego w przesuwanym / zmienianym oknie. Skonstruowałem zbalansowane zestawy treningów i testów dodatnich i ujemnych 1: 1 (czy w takim przypadku dobrze jest to zrobić...
Rozumiem, że miara f (oparta na precyzji i przywołaniu) jest oszacowaniem dokładności klasyfikatora. Ponadto, gdy mamy niezrównoważony zestaw danych , f-miara jest ważniejsza od dokładności . Mam proste pytanie (które dotyczy bardziej prawidłowej terminologii niż technologii). Mam niezrównoważony...
Rozważ macierz wejściową i wyjście binarne .XXXyyy Częstym sposobem pomiaru wydajności klasyfikatora jest użycie krzywych ROC. Na wykresie ROC przekątna jest wynikiem, który można uzyskać z losowego klasyfikatora. W przypadku niezrównoważonego wyjścia wydajność losowego klasyfikatora można...
Próbuję użyć SMOTE do skorygowania nierównowagi w moim problemie z klasyfikacją wielu klas. Chociaż SMOTE działa doskonale na zestawie danych tęczówki zgodnie z dokumentem pomocy SMOTE, nie działa na podobnym zestawie danych. Oto jak wyglądają moje dane. Zauważ, że ma trzy klasy o wartościach 1, 2,...
Chciałbym przeprowadzić kombinację nadpróbkowania i podpróbkowania, aby zrównoważyć mój zestaw danych z około 4000 klientami podzielonymi na dwie grupy, gdzie jedna z grup ma udział około 15%. Zajrzałem do SMOTE ( http://www.inside-r.org/packages/cran/DMwR/docs/SMOTE ) i ROSE (...
Przykłady: w opisie stanowiska mam zdanie: „Starszy inżynier Java w Wielkiej Brytanii”. Chcę użyć modelu głębokiego uczenia się, aby przewidzieć go jako 2 kategorie: English i IT jobs. Jeśli użyję tradycyjnego modelu klasyfikacji, może on przewidzieć tylko 1 etykietę z softmaxfunkcją na ostatniej...
1) Jak mogę zmienić próg klasyfikacji (domyślnie jest to 0,5) w RandomForest w sklearn? 2) Jak mogę zaniżać próbkę w sklearn? 3) Mam następujący wynik z klasyfikatora RandomForest: [[1635 1297] [520 3624]] precision recall f1-score support class 0 0.76 0.56 0.64 2932 class 1 0.74 0.87 0.80...
Próbuję zbudować model predykcyjny za pomocą maszyn SVM na dość niezrównoważonych danych. Moje etykiety / wyniki mają trzy klasy: pozytywną, neutralną i negatywną. Powiedziałbym, że pozytywny przykład stanowi około 10-20% moich danych, neutralny około 50-60%, a negatywny około 30-40%. Próbuję...