Czy skorelowane dane wejściowe prowadzą do nadmiernego dopasowania do sieci neuronowych?

13

Moim zdaniem skorelowane dane wejściowe muszą prowadzić do nadmiernego dopasowania w sieciach neuronowych, ponieważ sieć uczy się korelacji, np. Szumu w danych.

Czy to jest poprawne?

Peter234
źródło

Odpowiedzi:

11

Właściwie nie.

Pytanie jako takie jest nieco ogólne i łączy dwie rzeczy, które tak naprawdę nie są ze sobą powiązane. Nadmierne dopasowanie jest zwykle rozumiane jako cecha przeciwna do ogólnego opisu; w tym sensie, że nadmiernie wyposażona (lub przeciążona) sieć będzie miała mniejszą moc generalizacyjną. O jakości tej decyduje przede wszystkim architektura sieci, szkolenie i procedura sprawdzania poprawności. Dane i ich właściwości wpisuje się tylko jako „coś, na czym odbywa się procedura szkolenia”. Jest to mniej więcej „znajomość podręcznika”; możesz spróbować „Wstępu do nauki statystycznej” Jamesa, Witten, Hastie i Tibshirani. Lub „Rozpoznanie wzoru” Bishopa (moja ulubiona książka na ten temat). Lub „Rozpoznawanie wzorców i uczenie maszynowe”, również autorstwa Bishopa.

W przypadku samej korelacji: rozważ przestrzeń wejściową o określonym wymiarze. Bez względu na to, jakiej transformacji użyjesz, wymiarowość pozostanie taka sama - tak twierdzi algebra liniowa. W jednym przypadku dana podstawa będzie całkowicie nieskorelowana - to właśnie otrzymujesz, kiedy dekorelujesz zmienne lub po prostu zastosujesz PAT (Transformacja osi zasady). Weź do tego dowolną książkę algebry liniowej.

Ponieważ sieć neuronowa o odpowiedniej architekturze może modelować dowolną funkcję (!), Można bezpiecznie założyć, że może ona również najpierw modelować PAT, a następnie robić wszystko, co powinna - na przykład klasyfikację, regresję itp.

Można również uznać korelację za cechę, która powinna być częścią opisu sieci neuronowej, ponieważ jest to właściwość danych. Charakter korelacji nie jest tak naprawdę ważny, chyba że jest to coś, co nie powinno być częścią danych. W rzeczywistości byłby to inny temat - należy modelować lub oceniać coś w rodzaju szumu na wejściu i uwzględniać go.

Podsumowując, nie. Skorelowane dane oznaczają, że powinieneś pracować ciężej, aby przetwarzanie danych było technicznie prostsze i bardziej efektywne. Może wystąpić przeregulowanie, ale nie nastąpi, ponieważ istnieją skorelowane dane.

cherub
źródło
Przepraszam, ale wciąż nie rozumiem dlaczego. Również moje wątpliwości są nieco ogólne. Szukałem odpowiedzi na „Czy skorelowane dane wejściowe mogą być szkodliwe dla sieci neuronowych?”. Tutaj twierdzisz: „możesz bezpiecznie założyć, że może on również najpierw modelować PAT”. Ale w jaki sposób przyjmujesz takie założenie. A potem moje kolejne pytanie brzmi: co się stanie, jeśli architektura neuronowa nie zawiedzie w modelowaniu PAT?
bytestorm,
@bytestorm: twoje pierwsze pytanie różni się od oryginału. Skorelowane dane wejściowe mogą ograniczać wydajność Twojego ANN (jak również innych metod). Ale to nie jest nieodłączną właściwością ANN. Co do drugiego pytania, jest to nie tylko założenie, ale jedynie przykładowe wyjaśnienie, dlaczego ANN mogą modelować PAT. W praktyce nie zrobiłbym tego w ten sposób, ani nie zaleciłbym tego.
cherubin
6

cherubin ma rację, jeśli chodzi o jego oświadczenie dotyczące nadmiernego dopasowania. Myślę jednak, że dyskusja na temat wysoce skorelowanych cech i ANN nadmiernie upraszcza ten problem.

Tak, teoretycznie prawdą jest, że ANN może aproksymować dowolną funkcję. Jednak w praktyce nie jest dobrym pomysłem uwzględnienie wielu wysoce skorelowanych funkcji. Spowoduje to wprowadzenie wielu zwolnień w ramach modelu. Włączenie takich zwolnień wprowadzi niepotrzebne zawiłości, a dzięki temu może zwiększyć liczbę minimów lokalnych. Biorąc pod uwagę, że funkcja utraty wartości ANN nie jest z natury płynna, wprowadzenie niepotrzebnej szorstkości nie jest świetnym pomysłem.

Jacob H.
źródło