Jak obliczyć redundancję funkcji?

10

Mam trzy funkcje, których używam do rozwiązania problemu klasyfikacji. Początkowo te funkcje generowały wartości logiczne, więc mogłem ocenić ich redundancję, sprawdzając, w jakim stopniu zestawy klasyfikacji dodatnich i ujemnych pokrywają się. Teraz rozszerzyłem funkcje o rzeczywiste wartości (wyniki) i chciałbym jeszcze raz przeanalizować ich redundancję, ale zupełnie nie wiem, jak to zrobić. Czy ktoś może podać mi wskaźnik lub pomysł, jak to zrobić?

Wiem, że to pytanie jest bardzo niejasne, ponieważ nie znam się na statystykach. Więc jeśli nie masz dla mnie odpowiedzi, być może masz pytania, które mogą pomóc mi lepiej zrozumieć siebie.

Edycja: Obecnie przeglądam Wikipedię na ten temat, mam wrażenie, że to, czego chcę, to współczynnik korelacji, ale nadal nie jestem pewien, czy jest to właściwe podejście i który z wielu dostępnych współczynników jest odpowiedni.

Edycja 2: W przypadku wartości logicznej najpierw utworzyłem dla każdej funkcji zestaw próbek, dla których było to prawdą. Następnie korelacja między dwiema cechami była wielkością przecięcia tych zbiorów z rozmiarem połączenia tych zbiorów. Jeśli ta wartość wynosi 1, są one całkowicie zbędne, ponieważ zawsze są takie same. Jeśli wynosi 0, nigdy nie są takie same.

Björn Pollex
źródło
pomogłoby to, gdybyś podał przykład, w jaki sposób definiujesz redundancję w przypadku boolowskim i jakiego rodzaju wyników można oczekiwać w przypadku ciągłym
mpiktas
@mpiktas: Edytuj moje pytanie w odpowiedzi na twój komentarz.
Björn Pollex,

Odpowiedzi:

4

Brzmi to jak problem z wyborem funkcji, w takim przypadku myślę, że chcesz obliczyć wzajemną informację między wszystkimi podzbiorami cech i wynikiem klasyfikacji. Podzbiór z najwyższą wzajemną informacją będzie zestawem funkcji, które zawierają najwięcej „informacji” o wynikowej klasyfikacji rekordu.

Jeśli masz tylko 3 funkcje, możesz obliczyć wszystkie możliwe podzestawy w rozsądnym czasie, jeśli twój zestaw funkcji powiększy się, będziesz musiał to przybliżyć (zwykle stosując zachłanne podejście: korzystaj z funkcji o najwyższym MI na każdym kroku ).

Nacięcie
źródło
2
(+1) dla wzajemnej informacji. Uwaga dodatkowa: a) Sugeruję zdobywanie informacji jako szczególny przypadek wzajemnej informacji. b) Automatyczny wybór funkcji nie tylko usunie zbędne, ale także wszystkie funkcje, które mają negatywny wpływ na dyskryminację klas.
steffen
Dzięki! Brzmi bardzo obiecująco, przyjrzę się temu.
Björn Pollex