Mam zestaw danych zawierający 20000 próbek, z których każda ma 12 różnych funkcji. Każda próbka należy do kategorii 0 lub 1. Chcę trenować sieć neuronową i las decyzyjny, aby kategoryzować próbki, aby móc porównać wyniki i obie techniki.
Pierwszą rzeczą, na którą natknąłem się, jest właściwa normalizacja danych. Jedna cecha jest w zakresie , inna w i jest jedna cecha, która w większości przyjmuje wartość 8, a czasem 7. Tak więc, jak czytam z różnych źródeł, właściwa normalizacja danych wejściowych dane są kluczowe dla sieci neuronowych. Jak się dowiedziałem, istnieje wiele możliwych sposobów normalizacji danych, na przykład:
- Normalizacja min./maks . : Zakres wejściowy jest przekształcany liniowo na przedział (lub alternatywnie , czy to ma znaczenie?)
- Normalizacja Z-score : Dane są przekształcane w celu uzyskania zerowej średniej i wariancji jednostkowej:
Którą normalizację wybrać? Czy normalizacja jest również potrzebna w przypadku lasów decyzyjnych? W przypadku normalizacji Z-Score różne cechy moich danych testowych nie mieszczą się w tym samym zakresie. Czy to może być problem? Czy każda funkcja powinna zostać znormalizowana przy użyciu tego samego algorytmu, aby zdecydować się na użycie Min-Max dla wszystkich funkcji lub Z-Score dla wszystkich funkcji?
Czy istnieją kombinacje, w których dane są odwzorowane na a także mają średnią zero (co oznaczałoby nieliniową transformację danych, a zatem zmianę wariancji i innych cech danych wejściowych).
Czuję się trochę zagubiony, ponieważ nie mogę znaleźć referencji, które odpowiedzą na te pytania.
źródło