Moim zdaniem skorelowane dane wejściowe muszą prowadzić do nadmiernego dopasowania w sieciach neuronowych, ponieważ sieć uczy się korelacji, np. Szumu w danych.
Czy to jest poprawne?
źródło
Moim zdaniem skorelowane dane wejściowe muszą prowadzić do nadmiernego dopasowania w sieciach neuronowych, ponieważ sieć uczy się korelacji, np. Szumu w danych.
Czy to jest poprawne?
Właściwie nie.
Pytanie jako takie jest nieco ogólne i łączy dwie rzeczy, które tak naprawdę nie są ze sobą powiązane. Nadmierne dopasowanie jest zwykle rozumiane jako cecha przeciwna do ogólnego opisu; w tym sensie, że nadmiernie wyposażona (lub przeciążona) sieć będzie miała mniejszą moc generalizacyjną. O jakości tej decyduje przede wszystkim architektura sieci, szkolenie i procedura sprawdzania poprawności. Dane i ich właściwości wpisuje się tylko jako „coś, na czym odbywa się procedura szkolenia”. Jest to mniej więcej „znajomość podręcznika”; możesz spróbować „Wstępu do nauki statystycznej” Jamesa, Witten, Hastie i Tibshirani. Lub „Rozpoznanie wzoru” Bishopa (moja ulubiona książka na ten temat). Lub „Rozpoznawanie wzorców i uczenie maszynowe”, również autorstwa Bishopa.
W przypadku samej korelacji: rozważ przestrzeń wejściową o określonym wymiarze. Bez względu na to, jakiej transformacji użyjesz, wymiarowość pozostanie taka sama - tak twierdzi algebra liniowa. W jednym przypadku dana podstawa będzie całkowicie nieskorelowana - to właśnie otrzymujesz, kiedy dekorelujesz zmienne lub po prostu zastosujesz PAT (Transformacja osi zasady). Weź do tego dowolną książkę algebry liniowej.
Ponieważ sieć neuronowa o odpowiedniej architekturze może modelować dowolną funkcję (!), Można bezpiecznie założyć, że może ona również najpierw modelować PAT, a następnie robić wszystko, co powinna - na przykład klasyfikację, regresję itp.
Można również uznać korelację za cechę, która powinna być częścią opisu sieci neuronowej, ponieważ jest to właściwość danych. Charakter korelacji nie jest tak naprawdę ważny, chyba że jest to coś, co nie powinno być częścią danych. W rzeczywistości byłby to inny temat - należy modelować lub oceniać coś w rodzaju szumu na wejściu i uwzględniać go.
Podsumowując, nie. Skorelowane dane oznaczają, że powinieneś pracować ciężej, aby przetwarzanie danych było technicznie prostsze i bardziej efektywne. Może wystąpić przeregulowanie, ale nie nastąpi, ponieważ istnieją skorelowane dane.
cherubin ma rację, jeśli chodzi o jego oświadczenie dotyczące nadmiernego dopasowania. Myślę jednak, że dyskusja na temat wysoce skorelowanych cech i ANN nadmiernie upraszcza ten problem.
Tak, teoretycznie prawdą jest, że ANN może aproksymować dowolną funkcję. Jednak w praktyce nie jest dobrym pomysłem uwzględnienie wielu wysoce skorelowanych funkcji. Spowoduje to wprowadzenie wielu zwolnień w ramach modelu. Włączenie takich zwolnień wprowadzi niepotrzebne zawiłości, a dzięki temu może zwiększyć liczbę minimów lokalnych. Biorąc pod uwagę, że funkcja utraty wartości ANN nie jest z natury płynna, wprowadzenie niepotrzebnej szorstkości nie jest świetnym pomysłem.
źródło