Keras obsługuje zarówno TensorFlow i Theano jako backend: jakie są plusy / minusy wybierając jedną versus inne, oprócz faktu, że obecnie nie wszystkie operacje są realizowane przy backend
Keras obsługuje zarówno TensorFlow i Theano jako backend: jakie są plusy / minusy wybierając jedną versus inne, oprócz faktu, że obecnie nie wszystkie operacje są realizowane przy backend
Funkcje aktywacyjne służą do wprowadzenia nieliniowości w liniowym wyjściu typu w * x + bw sieci neuronowej. Które jestem w stanie zrozumieć intuicyjnie dla funkcji aktywacyjnych takich jak sigmoid. Rozumiem zalety ReLU, które pozwala uniknąć martwych neuronów podczas propagacji wstecznej. Jednak...
Jaka jest różnica pomiędzy treningiem w Keras val_lossi losspodczas niego? Na przykład Epoch 1/20 1000/1000 [==============================] - 1s - loss: 0.1760, val_loss: 0.2032 Na niektórych stronach czytałem, że po sprawdzeniu poprawności nie
Słyszałem, jak Andrew Ng (w filmie, którego niestety już nie mogę znaleźć) opowiadał o tym, jak zmieniło się rozumienie lokalnych minimów w problemach głębokiego uczenia się w tym sensie, że są one obecnie uważane za mniej problematyczne, ponieważ w przestrzeniach wielowymiarowych (spotykanych w...
Z samouczka RNN firmy Keras: „RNN są trudne. Wybór wielkości partii jest ważny, wybór straty i optymalizatora ma kluczowe znaczenie itp. Niektóre konfiguracje nie będą zbieżne”. Jest to więc bardziej ogólne pytanie dotyczące dostrajania hiperparametrów LSTM-RNN w Keras. Chciałbym wiedzieć o...
Tutaj odpowiedź odnosi się do znikania i eksplodowania gradientów, które były sigmoidpodobne do funkcji aktywacyjnych, ale, jak sądzę, Relumają wadę i są to oczekiwana wartość. nie ma ograniczeń dla wyjścia, Reluwięc jego oczekiwana wartość nie jest równa zero. Pamiętam czas, zanim popularność...
Próbuję obliczyć ilość pamięci potrzebną GPU do trenowania mojego modelu na podstawie tych notatek Andreja Karphaty'ego: http://cs231n.github.io/convolutional-networks/#computational-considerations Moja sieć ma 532,752 aktywacji i 19 027 984 parametrów (wag i odchyleń). Są to 32-bitowe wartości...
Robię projekt dotyczący problemu z identyfikacją autora. Zastosowałem normalizację tf-idf do trenowania danych, a następnie wyszkoliłem svm na tych danych. Teraz, używając klasyfikatora, powinienem również znormalizować dane testowe. Wydaje mi się, że podstawowym celem normalizacji jest...
Tworzę plik corr()df z oryginalnego pliku df. corr()Df wyszedł 70 x 70 i to jest niemożliwe, aby wyobrazić sobie mapę cieplną ... sns.heatmap(df). Jeśli spróbuję wyświetlić corr = df.corr(), tabela nie pasuje do ekranu i widzę wszystkie korelacje. Czy jest to sposób na wydrukowanie całości dfbez...
Bagging to generowanie wielu predyktorów, które działają tak samo, jak jeden predyktor. Dropout jest techniką, która uczy sieci neuronowe uśredniania wszystkich możliwych podsieci. Patrząc na najważniejsze zawody Kaggle, wydaje się, że te dwie techniki są bardzo często używane razem. Nie widzę...
Zaczynam się uczyć uczenia maszynowego ze strony internetowej Tensorflow. Rozwinąłem bardzo podstawowe podejście do programu głębokiego uczenia się (ta metoda sprawia, że uczę się szybko zamiast czytać książki i duże artykuły). Jest kilka mylących rzeczy, z którymi się zetknąłem, 2 z nich...
Na blogu Keras o konwencjach szkoleniowych od zera kod pokazuje tylko sieć działającą na danych szkoleniowych i walidacyjnych. Co z danymi testowymi? Czy dane walidacyjne są takie same jak dane testowe (nie sądzę). Jeśli istniał oddzielny folder testowy na podobnych liniach jak folder pociągu i...
Jaka jest różnica między fit()i fit_generator()w Keras? Kiedy powinienem używać fit()vs
Gram trochę z konwekcjami. W szczególności korzystam z zestawu danych kaggle koty kontra psy, który składa się z 25 000 obrazów oznaczonych jako kot lub pies (po 12500 każdego). Udało mi się osiągnąć około 85% dokładności klasyfikacji na moim zestawie testowym, jednak wyznaczyłem sobie cel...
Powiedzmy, że mam strzałkę z góry na dół i chcę przewidzieć kąt, pod jakim ta strzała się tworzy. Będzie to od 000 do stopni lub od do . Problem polega na tym, że ten cel jest okrągły, i stopni są dokładnie takie same, co jest niezmiennością, którą chciałbym włączyć do mojego celu, co powinno...
Powiedzmy, że wykonałem naukę transferu w sieci wstępnie przeszkolonej, aby rozpoznać 10 obiektów. Jak dodać jedenasty element, który sieć może sklasyfikować, nie tracąc wszystkich 10 kategorii, które już trenowałem, ani informacji z oryginalnego wstępnie wyszkolonego modelu? Znajomy powiedział mi,...
Zastanawiam się, w jakich sytuacjach korzystne jest układanie
Mam do czynienia z problemem, w którym nie mogłem znaleźć wystarczającej ilości danych (obrazów), aby móc zasilić moją głęboką sieć neuronową w celu szkolenia. Tak zainspirował mnie artykuł Generative Adversarial Text to Image Synthesis opublikowany przez Scotta Reeda i in. w sprawie generatywnych...
Czy istnieje metoda obliczania przedziału predykcji (rozkładu prawdopodobieństwa) wokół prognozy szeregów czasowych z sieci neuronowej LSTM (lub innej cyklicznej)? Powiedzmy na przykład, że przewiduję 10 próbek w przyszłości (t + 1 do t + 10), w oparciu o 10 ostatnio zaobserwowanych próbek (t-9...
Jeśli spojrzę na jedno z wielu źródeł klas Imagenet w Internecie, nie mogę znaleźć żadnej klasy związanej z ludźmi (i nie, żniwiarz nie jest kimś, kto zbiera, ale to, co znałem jako długie nogi tatusia, rodzaj pająk :-). Jak to możliwe? Chciałbym mieć co najmniej spodziewali się personlekcje, a...