Jedną z metod oceny w konkursie ImageNet (klasyfikacja 1000 kategorii obrazów) jest błąd w pierwszej piątce, co to znaczy? Zobacz:
Jedną z metod oceny w konkursie ImageNet (klasyfikacja 1000 kategorii obrazów) jest błąd w pierwszej piątce, co to znaczy? Zobacz:
W CNN poznamy filtry do tworzenia mapy obiektów w warstwie splotowej. W programie Autoencoder pojedynczą ukrytą jednostkę każdej warstwy można uznać za filtr. Jaka jest różnica między filtrami wyuczonymi w tych dwóch
Ten artykuł twierdzi, że w CART, ponieważ podział binarny jest wykonywany na jednej zmiennej towarzyszącej na każdym etapie, wszystkie podziały są ortogonalne, a zatem interakcje między zmiennymi towarzyszącymi nie są brane pod uwagę. Jednak wiele bardzo poważnych odniesień twierdzi, wręcz...
Mam zestaw danych ze zmienną ciągłą i binarną zmienną docelową (0 i 1). Muszę zdyskretyzować zmienne ciągłe (w przypadku regresji logistycznej) w odniesieniu do zmiennej docelowej oraz z ograniczeniem, że częstotliwość obserwacji w każdym przedziale powinna być zrównoważona. Próbowałem algorytmów...
W Random Forest każde drzewo jest uprawiane równolegle na unikalnej próbce danych doładowania. Ponieważ oczekuje się, że każda próbka przypominająca zawiera około 63% unikalnych obserwacji, pozostawia to około 37% obserwacji, które można wykorzystać do testowania drzewa. Teraz wydaje się, że w...
Pytania: Jaka jest różnica między drzewkami regresji wzmocnionej (BRT) a uogólnionymi modelami wzmocnionej (GBM)? Czy można ich używać zamiennie? Czy jedna jest specyficzną formą drugiej? Dlaczego Ridgeway użył wyrażenia „Uogólnione modele regresji wzmocnionej” (GBM), aby opisać to, co Friedman...
Zgodnie z dokumentacją obiektu StandardScaler w scikit-learn: Na przykład wiele elementów wykorzystywanych w funkcji celu algorytmu uczenia się (np. Jądro RBF maszyn wektora wektorowego lub regulatory modeli liniowych L1 i L2) zakłada, że wszystkie funkcje są wyśrodkowane wokół 0 i mają...
Sieci autokoderów wydają się znacznie trudniejsze niż normalne sieci MLP klasyfikujące. Po kilku próbach użycia Lasagne wszystko, co otrzymuję w zrekonstruowanym wyjściu, jest w najlepszym razie rozmyte uśrednianie wszystkich obrazów bazy danych MNIST, bez rozróżnienia na to, co faktycznie jest...
Myślałem o rozwiązaniu Lasso metodami waniliowymi. Ale czytałem osoby sugerujące użycie Proksymalnego spadku gradientu. Czy ktoś może wyjaśnić, dlaczego dla Lasso można zastosować bliższe GD zamiast waniliowych metod
Zakładam, że ogólna konfiguracja regresji, czyli ciągła funkcja jest wybierana z rodziny celu dopasowania danych ( może być dowolną przestrzenią, taką jak sześcian lub faktycznie dowolną rozsądną przestrzenią topologiczną) zgodnie z niektórymi naturalnymi kryteriami.hθ:X→Rnhθ:X→Rnh_\theta:X\to...
Po przeczytaniu wielu artykułów do głębokiego uczenia się, rodzajem szorstkiego odczucia jest to, że istnieje wiele sztuczek w szkoleniu sieci, aby uzyskać lepszą niż zwykle wydajność. Z punktu widzenia aplikacji branżowych bardzo trudno jest opracować tego rodzaju sztuczki, z wyjątkiem elitarnych...
Według „Efficient Backprop” LeCun i wsp. (1998) dobrą praktyką jest znormalizowanie wszystkich danych wejściowych, tak aby były one wyśrodkowane wokół 0 i mieściły się w zakresie maksymalnej drugiej pochodnej. Na przykład użylibyśmy [-0,5,0,5] dla funkcji „Tanh”. Ma to pomóc w postępie wstecznej...
Przypuśćmy, że chcę wytrenować głęboką sieć neuronową do przeprowadzania klasyfikacji lub regresji, ale chcę wiedzieć, jak pewne będą prognozy. Jak mogłem to osiągnąć? Moim pomysłem jest obliczenie entropii krzyżowej dla każdego układu odniesienia na podstawie wyników jego prognozowania w...
Tło: Używam aproksymacji wartości Q sieci neuronowej w moim zadaniu uczenia się zbrojenia. Podejście jest dokładnie takie samo, jak opisane w tym pytaniu , jednak samo pytanie jest inne. W tym podejściu liczba wyników jest liczbą działań, które możemy podjąć. W prostych słowach algorytm jest...
Wiem, jak zaimplementować liniową funkcję celu i liniowe wzmocnienia w XGBoost. Moje konkretne pytanie brzmi: kiedy algorytm pasuje do resztkowego (lub ujemnego gradientu), czy używa jednej cechy na każdym etapie (tj. Modelu jednoczynnikowego) czy wszystkich cech (model wielowymiarowy)? Będziemy...
Zamknięte . To pytanie musi być bardziej skoncentrowane . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby skupiało się tylko na jednym problemie, edytując ten post . Zamknięte 3 lata temu . Chciałbym nauczyć się...
Pracuję nad książką ESL Hastie i mam trudności z pytaniem 2.3. Pytanie jest następujące: Rozważamy oszacowanie najbliższego sąsiada w punkcie początkowym, a to równanie podaje medianę odległości od początku do najbliższego punktu danych. Nie mam pojęcia, od czego zacząć, jeśli chodzi o próbę...
Moje pytanie: czy powinienem zrobić CV nawet dla stosunkowo dużego zbioru danych? Mam stosunkowo duży zestaw danych i zastosuję algorytm uczenia maszynowego do tego zestawu danych. Ponieważ mój komputer nie jest szybki, CV (i wyszukiwanie siatki) zajmuje czasem zbyt dużo czasu. W szczególności...
W The Elements of Statistics Learning znalazłem następujące stwierdzenie: Istnieje jedna kwalifikacja: wstępne pomiary bez nadzoru można wykonać przed pominięciem próbek. Na przykład, moglibyśmy wybrać 1000 predyktorów o największej wariancji we wszystkich 50 próbkach przed rozpoczęciem...
Próbuję zaimplementować model mieszanki Gaussa z stochastycznym wnioskiem wariacyjnym, zgodnie z tym artykułem . To jest pgm mieszanki Gaussa. Według artykułu, pełny algorytm stochastycznego wnioskowania wariacyjnego to: I nadal jestem bardzo zdezorientowany co do metody skalowania go do...