Czy są jakieś dobre powody, aby preferować wartości binarne (0/1) zamiast dyskretnych lub ciągłych wartości znormalizowanych , np. (1; 3), jako dane wejściowe dla sieci sprzężenia zwrotnego dla wszystkich węzłów wejściowych (z propagacją wsteczną lub bez)?
Oczywiście mówię tylko o danych wejściowych, które można przekształcić w dowolną formę; np. jeśli masz zmienną, która może przyjmować kilka wartości, albo podaj je bezpośrednio jako wartość jednego węzła wejściowego, albo utwórz węzeł binarny dla każdej wartości dyskretnej. Zakłada się, że zakres możliwych wartości byłby taki sam dla wszystkich węzłów wejściowych. Zobacz zdjęcia, aby zobaczyć przykład obu możliwości.
Podczas badań na ten temat nie mogłem znaleźć żadnych zimnych, twardych faktów na ten temat; wydaje mi się, że mniej więcej zawsze będzie to „próba i błąd”. Oczywiście, węzły binarne dla każdej dyskretnej wartości wejściowej oznaczają więcej węzłów warstwy wejściowej (a tym samym więcej ukrytych węzłów warstwy), ale czy rzeczywiście dałoby to lepszą klasyfikację wyjściową niż posiadanie takich samych wartości w jednym węźle, z dobrze dopasowaną funkcją progową w ukryta warstwa?
Czy zgadzasz się, że to tylko „spróbuj i zobacz”, czy masz inne zdanie na ten temat?
źródło
Tak, są. Wyobraź sobie, że Twoim celem jest zbudowanie binarnego klasyfikatora. Następnie modelujesz swój problem jako oszacowanie rozkładu Bernoulliego, gdzie, biorąc pod uwagę wektor cech, wynik należy do jednej klasy lub przeciwnie. Wyjściem takiej sieci neuronowej jest prawdopodobieństwo warunkowe. Jeśli jest większy niż 0,5, przypisujesz go do klasy, w przeciwnym razie do drugiej.
Aby być dobrze zdefiniowanym, wynik musi wynosić od 0 do 1, więc wybierasz etykiety na 0 i 1 i minimalizujesz entropię krzyżową, gdzie jest wyjściem twojej sieci, zaś są wartościami docelowymi dla twoich próbek treningowych. Dlatego potrzebujesz . y ( x ) t t ∈ { 0 , 1 }
źródło
Napotkałem również ten sam dylemat, kiedy rozwiązałem problem. Nie wypróbowałem obu architektur, ale uważam, że jeśli zmienna wejściowa jest dyskretna, to funkcja wyjściowa sieci neuronowej będzie miała charakterystykę funkcji impulsowej, a sieć neuronowa jest dobra w modelowaniu funkcji impulsowej. W rzeczywistości każdą funkcję można modelować za pomocą sieci neuronowej z różną precyzją w zależności od złożoności sieci neuronowej. Jedyną różnicą jest to, że w pierwszej architekturze zwiększyła się liczba danych wejściowych, więc większa liczba wag w węźle pierwszej ukrytej warstwy służy do modelowania funkcji impulsowej, ale w drugiej architekturze potrzebna jest większa liczba węzłów w ukrytej warstwie w porównaniu do pierwszej architektury aby uzyskać taką samą wydajność.
źródło