Przede wszystkim zdałem sobie sprawę, że jeśli muszę wykonać przewidywania binarne, muszę utworzyć co najmniej dwie klasy, wykonując kodowanie „na gorąco”. Czy to jest poprawne? Czy jednak binarna entropia krzyżowa dotyczy tylko predykcji z tylko jedną klasą? Gdybym miał zastosować kategoryczną utratę entropii krzyżowej, która zwykle występuje w większości bibliotek (takich jak TensorFlow), czy byłaby znacząca różnica?
W rzeczywistości, jakie są dokładnie różnice między kategoryczną a binarną entropią krzyżową? Nigdy nie widziałem implementacji binarnej entropii krzyżowej w TensorFlow, więc pomyślałem, że kategoryczna działa równie dobrze.
Odpowiedzi:
Dwumianowa utrata entropii krzyżowej jest szczególnym przypadkiem wielomianowej utraty entropii krzyżowej dlam=2 .
źródło
Binarna entropia krzyżowa służy do klasyfikacji wielu etykiet, podczas gdy kategoryczna entropia krzyżowa służy do klasyfikacji wielu klas, gdzie każdy przykład należy do jednej klasy.
źródło
Myślę, że istnieją trzy rodzaje zadań klasyfikacyjnych:
Z nich możemy powiedzieć
Chcę podkreślić, że klasyfikacja wielu klas nie jest podobna do klasyfikacji wielu marek ! Zamiast tego klasyfikator z wieloma etykietami pożycza pomysł od klasyfikatora binarnego!
źródło