Jak nazywa się „jedno-gorące” kodowanie w literaturze naukowej?

10

Jak nazywa się operator, który przyjmuje wektor kategoryczny i przekształca go w reprezentację binarną za pomocą kodowania „na gorąco”? Zastanawiam się, skoro piszę artykuł naukowy i potrzebuję do tego odpowiedniej nazwy.

kruchy
źródło
3
Kodowanie atrapy to inna nazwa. W uczeniu maszynowym wszyscy używają tylko jednego prostego typu, więc jest całkiem jasne, co to jest, ale istnieją inne rodzaje kodowania kontrastowego (inna nazwa) z minusami i innymi pomysłami, które pełnią podobną rolę, używane w statystykach i tak dalej możesz być bardziej konkretny.
Gijs,
7
Statystyki i analizy danych, na długo przed uczenia maszynowego, ten typ kodowania kategorycznego został znany jako atrapy zmiennych aka wskaźnik typu zmiennych kontraście.
ttnphns,

Odpowiedzi:

18

Statystycy nazywają kodowanie „na gorąco” jako kodowanie pozorowane . Jak sugerowali inni (w tym Scortchi w komentarzach), nie jest to dokładny synonim, ale jest to termin, który byłby zwykle używany w przypadku zmiennych kategorialnych zakodowanych w zakresie 0-1.

Zobacz także: „Zmienna manekina” kontra „zmienna wskaźnikowa” dla danych nominalnych / kategorialnych

Tim
źródło
3
Hی !! Nie mogę uwierzyć, że o tym zapomniałem. Nazywam je również wskaźnikami.
Tim Atreides,
2
Nie sądzę, aby „fałszywe kodowanie” było dobrym synonimem. Jest używany albo w ogólnym znaczeniu, że oznacza reprezentowanie zmiennej kategorialnej z zestawem zmiennych numerycznych lub do „kodowania na poziomie odniesienia” w odróżnieniu od „kodowania na gorąco”, np. W przypadku problemów z kodowaniem na gorąco a kodowaniem pozorowanym . „Kodowanie na poziomie” (patrz: Czy w modelach regresji jest coś, co nazywa się „kodowaniem średnim” (np. Kodowaniem pozorowanym i kodowaniem efektów) ) oznacza kodowanie „na gorąco”, ale może też kojarzy się z kontekstem modelu liniowego…
Scortchi - Przywróć Monica
2
... zdecydowanie do ogólnego użytku.
Scortchi - Przywróć Monikę
3
Nigdy nie widziałem definicji jako takiej, ale dla mnie zmienne obojętne w statystykach zawsze oznaczają kodowanie N czynników za pomocą zmiennych (N-1), podczas gdy kodowanie jednokierunkowe koduje N czynników za pomocą N zmiennych. Ta różnica jest niezwykle ważna w praktyce. Jeśli zastosujemy kodowanie jednorazowe do regresji, otrzymamy bzdury z powodu zależności zmiennych!
meh,
2
@aginensky Chociaż ludzie z pewnością powinni zwracać uwagę na to, jakie zmienne mają, dobra rutyna regresji nie przyniesie bzdur w takich okolicznościach: po prostu pominie jeden predyktor i powie o tym.
Nick Cox,
8

To zależy od grupy docelowej.

Jak powiedział Tim , statystycy nazywają to kodowaniem pozornym i tego właśnie oczekiwałbym, opisując coś w rodzaju modelu regresji. „Uwzględniono zmienne kodowane jako atrapy, aby dostosować się do lokalizacji sklepu”. Wydaje mi się, że nazwanie go „gorącym kodowaniem” wydaje się nieco dziwne.

Jednak, jak powiedział inny Tim , kodowanie na gorąco jest dość powszechne w literaturze dotyczącej uczenia maszynowego. Słabo implikuje istnienie węzłów (jak w sieci neuronowej), fizycznych przewodów (w urządzeniu) lub czegoś podobnego, przynajmniej dla mnie.

Formalnie myślę, że stosujesz zestaw funkcji wskaźnikowych , ale prawdopodobnie jest to zbyt formalne poza dowodem.jaX

Matt Krause
źródło
6

Termin pochodzi od inżynierii elektronicznej. Pomyśl tylko, kto nazwałby 1 „gorącym”? Tylko ci, którzy pracują z elektrycznością, gdzie „gorący” lub „pod napięciem” oznacza, że drut ma potencjał elektryczny . „Jeden gorący” odnosi się do konstrukcji obwodu, w której poziom dyskretnego sygnału elektrycznego na jednym przewodzie byłby dekodowany na gorącym / zimnym na zestawie przewodów. Podejrzewam, że niektórzy uczący się maszynami z wykształceniem EE uznali tę analogię za przekonującą.

W ekonometrii i statystykach można napotkać dummylub indicatorzmienne, które są dość podobne, ponieważ służą one do reprezentowania odrębnych kategorii za pomocą ich odrębnych wskaźników. Jest jednak subtelna różnica. Na przykład wykonujesz manekiny K-1 dla kategorii K, ponieważ kategoria podstawowa odpowiada wszystkim manekinom ustawionym na 0. W przeciwieństwie do tego, myślę, że w jednym kodowaniu na gorąco masz K drutów, gdzie kategoria podstawowa będzie miała własny drut ( zmienna).

Aksakal
źródło
5

Jestem wyszkolony statystycznie, a ostatnio słyszałem o „kodowaniu na gorąco” w uczeniu maszynowym / comp sci lit. Zwykle określałem macierz jednopunktową jako macierz projektową / macierz danych / ramkę projektową.

Tim Atreides
źródło
Czy masz referencję, którą mógłbym zacytować? Piszę publikację naukową i chciałbym wyjaśnić tę metodę wszystkim czytelnikom, ponieważ artykuł nie jest przeznaczony dla społeczności ML, ale jest szerszy.
kruchy
Nie mogę powiedzieć, że kiedykolwiek słyszałem słowo „one-hotted” jako czasownik. Ale podobnie dochodzę do tego z kierunku matematycznego / statystycznego. (Wyniki Google dotyczące „jednego hotowanego” są interesujące - dostaję mieszankę znaczenia uczenia maszynowego i ludzi mówiących o „jednym hotowanym samochodzie”.)
Michael Lugo,
3

W naukach fizycznych i inżynierii nazywa się to (uogólnioną) deltą Kroneckera .

W najprostszej formie, delta Kronekera jest zdefiniowana jako choć to w sposób trywialny uogólnione na δ [ warunek ]{ 1 jeśli [ warunek ] 0 jeszcze .

δi,j{1ifi=j0else,
δ[condition]{1if[condition]0else.

δicategory

δicategory{1ificategory0else,
δi ”, jeśli kategoria jest oczywista z kontekstu.

Delta Kroneckera jest naprawdę przydatna w Sigma / Pi / Einstein / etc. notacje, ponieważ umożliwia warunkowe określenie warunków.

Aby odnieść to do typowych struktur programowania, delta Kroneckera condition?1:0, gdzie ?:jest operatorem warunkowym .


δja,jotδja=jot

Nat
źródło
Nie widzę tutaj linku. Jedna gorąca dekoduje jedną zmienną do zestawu dla każdego stanu zmiennej. Jak w tej aplikacji używana jest delta Kroneckera?
Aksakal
{0,1}δVWδAcuraδHonda
δja,jotδNazwa firmy,VWitp.
Nat.
Manekin działa w następujący sposób: masz wywoływane zmienne V.W. i ZAdoURZA. Twoje obserwacje sąja=1 ..N., więc otrzymujesz wartości V.W.ja i ZAdoURZAja, oba są zerowe, gdy samochód jest HONDA. Zauważ, że tutajjanie jest marką samochodu, to liczba obserwacji. Nadal nie rozumiem, jak połączyć to z deltą Kroneckera. Powiedz, jeśli pierwotna zmienna byładoZARja, wtedy delta będzie działać V.W.ja=δ(doZARja,V.W.)
Aksakal
@Aksakal Wartość, którą nazywasz „V.W.ja" jest δVWja lub δjaVW. Gdybyja to VW, to byłoby 1; w przeciwnym razie to0.
Nat
2

Pattern Recognition i Uczenia Maszynowego Christopher Bishop używa terminu1-z-K. schemat.

Oto cytat z książki

Zmiennych binarnych można użyć do opisania wielkości, które mogą przyjąć jedną z dwóch możliwych wartości. Często jednak spotykamy zmienne dyskretne, które mogą przyjąć jedną z nichK.możliwe wzajemnie wykluczające się stany. Chociaż istnieją różne alternatywne sposoby wyrażania takich zmiennych, wkrótce przekonamy się, że szczególnie dogodną reprezentacją jest1-z-K. schemat, w którym zmienna jest reprezentowana przez a K.-wymiarowy wektor x w którym jeden z elementów xk równa się 1, a wszystkie pozostałe elementy są równe 0. Na przykład, jeśli mamy zmienną, która może przyjąćK.=6 stanów i szczególna obserwacja zmiennej odpowiada stanie, w którym x3)=1, następnie x będzie reprezentowany przez,

x=(0,0,1,0,0,0)T.

kedarps
źródło