Przeczytałem więc kilka postów o tym, dlaczego zawsze należy unikać binowania. Popularnym odniesieniem dla tego roszczenia jest ten link .
Główną kwestią jest to, że punkty binningu (lub punkty odcięcia) są raczej arbitralne, jak również wynikająca z tego utrata informacji, i że splajny powinny być preferowane.
Jednak obecnie pracuję z interfejsem API Spotify, który ma wiele miar zaufania dla kilku ich funkcji.
Patrząc na jedną cechę, „instrumentalność”, odniesienia wskazują:
Przewiduje, czy utwór nie zawiera wokalu. W tym kontekście dźwięki „Ooh” i „aah” są traktowane jako instrumentalne. Rap lub słowa mówione są wyraźnie „wokalne”. Im wartość instrumentalności jest bliższa 1,0, tym większe prawdopodobieństwo, że utwór nie zawiera treści wokalnych. Wartości powyżej 0,5 mają reprezentować ścieżki instrumentalne , ale pewność jest wyższa, gdy wartość zbliża się do 1,0.
Biorąc pod uwagę bardzo przesunięty w lewo rozkład moich danych (około 90% próbek jest niewiele powyżej 0, uznałem za sensowne przekształcenie tej cechy w dwie cechy kategoryczne: „instrumentalna” (wszystkie próbki o wartości powyżej 0,5) i „nienarzędziowa” „(dla wszystkich próbek o wartości poniżej 0,5).
Czy to źle? A jaka byłaby alternatywa, gdy prawie wszystkie moje (ciągłe) dane obracają się wokół jednej wartości? Z tego, co rozumiem na temat splajnów, nie będą one również działać z problemami z klasyfikacją (co robię).
Odpowiedzi:
Niewielką przesadą jest stwierdzenie, że binowanie należy unikać za wszelką cenę , ale z pewnością jest tak, że binning wprowadza wybory bin, które wprowadzają pewną arbitralność do analizy. Dzięki nowoczesnym metodom statystycznym generalnie nie jest konieczne angażowanie się w binowanie, ponieważ wszystko, co można zrobić na dyskretnych „binowanych” danych, można ogólnie zrobić na podstawie podstawowych wartości ciągłych.
Najczęstszym zastosowaniem „binowania” w statystykach jest tworzenie histogramów. Histogramy są podobne do ogólnej klasy estymatorów gęstości jądra (KDE), o ile dotyczą one agregacji funkcji krokowych na wybranych przedziałach, podczas gdy KDE obejmuje agregację gładszych jąder. Funkcja krokowa zastosowana w histogramie nie jest funkcją gładką, i ogólnie rzecz biorąc jest tak, że można wybrać lepsze funkcje jądra, które są mniej arbitralne w metodzie KDE, co również daje lepsze oszacowania podstawowej gęstości danych. Często mówię uczniom, że histogram to po prostu „KDE biedaka”. Osobiście nigdy bym go nie użył, ponieważ tak łatwo jest uzyskać KDE bez binowania danych, a to daje doskonałe wyniki bez arbitralnego wyboru binowania.
Inne powszechne użycie „binowania” występuje, gdy analityk chce dyskretyzować ciągłe dane do pojemników, aby zastosować techniki analityczne wykorzystujące wartości dyskretne. To wydaje się sugerować w cytowanym rozdziale dotyczącym przewidywania dźwięków wokalnych. W takich przypadkach binowanie wprowadza pewną arbitralność, a także utratę informacji. Ponownie najlepiej jest tego uniknąć, jeśli to możliwe, próbując utworzyć model bezpośrednio na podstawie leżących u jego podstaw wartości ciągłych, zamiast tworzyć model na podstawie dyskretnych wartości „skumulowanych”.
Zasadniczo statystycy powinni unikać technik analitycznych, które wprowadzają arbitralne założenia, szczególnie w przypadkach, w których dostępne są techniki alternatywne, aby łatwo uniknąć tych założeń. Zgadzam się więc z opinią, że binowanie jest generalnie niepotrzebne. Z pewnością nie należy tego unikać za wszelką cenę, ponieważ koszty są ważne, ale ogólnie należy tego unikać, gdy istnieją proste alternatywne techniki, które pozwalają na uniknięcie go bez poważnych niedogodności.
źródło
Zwykle zdecydowanie sprzeciwiałbym się kategoryzacji zmiennych ciągłych z powodów dobrze wyrażonych przez innych godnych uwagi Franka Harrella. W takim przypadku pomocne może być pytanie o proces, który wygenerował wyniki. Wygląda na to, że większość wyników jest w rzeczywistości zerowa, z dodanym szumem. Niektóre z nich są raczej blisko jedności z hałasem. Bardzo niewielu leży pomiędzy. W tym przypadku kategoryzacja wydaje się bardziej uzasadniona, ponieważ można argumentować, że modulo szum to zmienna binarna. Gdyby dopasować ją jako zmienną ciągłą, współczynniki miałyby znaczenie w kategoriach zmiany zmiennej predykcyjnej, ale w tym przypadku w większości jej zakresu zmienna jest bardzo słabo zaludniona, co wydaje się nieatrakcyjne.
źródło
Wyobraź sobie, że masz zegarek, który pokazuje tylko godziny. Tylko przez to, że mam tylko strzałkę godziny, która raz na godzinę powoduje skok 1/12 do innej godziny, nie porusza się płynnie. Taki zegar nie byłby bardzo przydatny, ponieważ nie wiedziałbyś, czy jest pięć po drugiej, wpół do drugiej czy dziesięć do trzeciej. Taki jest problem z binowanymi danymi, gubi szczegóły i wprowadza „skaczące” zmiany.
źródło
W przypadku niektórych aplikacji, w tym najwyraźniej rozważanych, binowanie może być absolutnie konieczne. Oczywiście, aby wykonać problem kategoryzacji, w pewnym momencie musisz wycofać dane kategoryczne z modelu i chyba że wszystkie dane wejściowe również są kategoryczne, będziesz musiał przeprowadzić binowanie. Rozważ przykład:
Jednak to, co słyszałeś, może być prawdą, w tym przedwczesnym binowaniu wartości pośrednich rezygnuje z informacji, które mogły zostać zachowane. Jeśli ostatecznym celem twojego projektu jest ustalenie, czy „polubisz” dany utwór, co może być określone przez dwa czynniki: „instrumentalność” i „rockitude”, prawdopodobnie lepiej byłoby zachować je jako zmienne ciągłe, dopóki trzeba wyciągnąć „sympatię” jako zmienną kategoryczną.
lub dowolne współczynniki, które uznacie za najbardziej odpowiednie, lub jakikolwiek inny model odpowiednio dopasowany do zestawu treningowego.
Jeśli zamiast tego zdecydujesz, czy coś jest „instrumentalne” (prawda czy fałsz) i „skały” (prawda czy fałsz), to masz przed sobą cztery kategorie, które przedstawisz jako dzień:
Ale wtedy jedyne, co możesz zdecydować, to którą z 4 kategorii „polubisz”. Zrezygnowałeś z elastyczności w swojej ostatecznej decyzji.
Decyzja o binowaniu, czy nie, zależy całkowicie od twojego celu. Powodzenia.
źródło
W kontekście pytania PO byłbym zadowolony, gdyby arbitralny próg 0,5 był ustawiony na różne wartości między wiarygodnymi wartościami minimalnymi i maksymalnymi oraz by zobaczyć, że podstawowe wyniki jego analizy są w dużej mierze niezależne od wyboru.
źródło