Termin „bliskość” spotkałem w przypadkowych lasach. Ale nie mogłem zrozumieć, co robi w przypadkowych lasach. Jak to pomaga w klasyfikacji?
źródło
Termin „bliskość” spotkałem w przypadkowych lasach. Ale nie mogłem zrozumieć, co robi w przypadkowych lasach. Jak to pomaga w klasyfikacji?
Termin „bliskość” oznacza „bliskość” lub „bliskość” między parami przypadków.
Zbliżenia są obliczane dla każdej pary przypadków / obserwacji / punktów próbki. Jeśli dwa przypadki zajmują ten sam węzeł końcowy przez jedno drzewo, ich bliskość zwiększy się o jeden. Pod koniec przebiegu wszystkich drzew proksymalizacje są znormalizowane przez podzielenie przez liczbę drzew. Zbliżenia są stosowane w zastępowaniu brakujących danych, lokalizowaniu wartości odstających i tworzeniu iluminujących niskopoziomowych widoków danych.
Zbliżenia
Bliskości pierwotnie tworzyły macierz NxN. Po wyhodowaniu drzewa umieść w nim wszystkie dane, zarówno treningowe, jak i treningowe. Jeśli przypadki k i n znajdują się w tym samym węźle końcowym, zwiększ ich bliskość o jeden. Na koniec znormalizuj sąsiedztwo, dzieląc przez liczbę drzew.
Użytkownicy zauważyli, że przy dużych zestawach danych nie mogli zmieścić matrycy NxN w szybkiej pamięci. Modyfikacja zmniejszyła wymagany rozmiar pamięci do NxT, gdzie T jest liczbą drzew w lesie. Aby przyspieszyć intensywne obliczeniowo skalowanie i iteracyjne zastępowanie brakujących wartości, użytkownik ma możliwość zachowania tylko największych liczb pośrednich dla każdego przypadku.
Gdy obecny jest zestaw testowy, można również obliczyć przybliżenia każdego przypadku w zestawie testowym z każdym przypadkiem w zestawie szkoleniowym. Ilość dodatkowych obliczeń jest umiarkowana.
cytat: https://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm
Zwróć uwagę, że autorzy Elements of Educational Learning twierdzą, że „Wykresy bliskości losowych lasów często wyglądają bardzo podobnie, niezależnie od danych, które poddają w wątpliwość ich użyteczność. Zwykle mają kształt gwiazdy, jedno ramię na klasę, co jest bardziej wymawiane, im lepsza wydajność klasyfikacji. ” (p 595)
Myślę jednak, że ci autorzy nie wspominają o sposobach, w jakie losowe lasy tak bardzo radzą sobie z brakującymi danymi (mimo że wspominają o brakujących danych z drzewami wcześniej w książce); być może autorzy po prostu nie podkreślili tego aspektu RF, co ma sens, biorąc pod uwagę, że książka jest ogromna i zawiera wiele informacji na wiele tematów / technik uczenia maszynowego. Nie sądzę jednak, aby wykresy dawały podobne kształty dla każdego RF, a zbiór danych oznacza ogólnie coś negatywnego w RF. Na przykład regresja liniowa zasadniczo zawsze wygląda tak samo, ale warto wiedzieć, które punkty leżą blisko linii, a które wydają się odstające od perspektywy regresji liniowej. Więc ... ich komentarz na temat użyteczności działek zbliżeniowych nie ma dla mnie sensu.
źródło