Interpretacja ujemnego podobieństwa cosinus

17

Moje pytanie może być głupie. Więc z góry przepraszam.

Próbowałem użyć modelu GLOVE wstępnie przeszkolonego przez grupę NLP Stanforda ( link ). Zauważyłem jednak, że moje wyniki podobieństwa wykazały pewne liczby ujemne.

To natychmiast skłoniło mnie do spojrzenia na plik danych słowo-wektor. Najwyraźniej wartości w wektorach słów mogły być ujemne. To wyjaśniało, dlaczego widziałem ujemne podobieństwa cosinus.

Przyzwyczaiłem się do podobieństwa cosinusów wektorów częstotliwości, których wartości są ograniczone w [0, 1]. Wiem na pewno, że iloczyn skalarny i funkcja kosinusowa mogą być dodatnie lub ujemne, w zależności od kąta między wektorem. Ale naprawdę trudno mi zrozumieć i interpretować to negatywne podobieństwo cosinus.

Na przykład, jeśli mam parę słów dających podobieństwo -0,1, czy są one mniej podobne niż inna para, której podobieństwo wynosi 0,05? A może porównać podobieństwo od -0,9 do 0,8?

Czy powinienem po prostu spojrzeć na wartość bezwzględną minimalnej różnicy kątów od ? Bezwzględna wartość wyników? $n\pi$

Wielkie dzięki.

machine-learning word2vec cosine-similarity Mai
źródło

1

Tag podobieństwa kosinusowego mówi: An angular-type similarity coefficient between two vectors. It is like correlation, only without centering the vectors.Jedyną różnicą między nimi jest to, że w odchyleniach korelacji (momenty) - które są multiplikowane krzyżowo - pochodzą ze średniej, podczas gdy w kosinusie odchylenia są od pierwotnego 0 - tzn. Są wartościami takimi, jakie są .

ttnphns

2

(cd.) Zrozumienie współczynnika dodatniego lub ujemnego jest takie samo w obu przypadkach. Negative Coef. oznacza, że dodatnie odchylenia / wartości jednego wektora mają tendencję do parowania z ujemnymi odchyleniami / wartościami drugiego wektora. To, czy oznacza to, że wektory są „podobne”, czy wręcz przeciwnie, „bardzo odmienne” zależy od tego, jakie znaczenie mają dla ciebie pozytywne i negatywne odchylenia / wartości danych.

ttnphns

@ttnphns Dziękuję bardzo za komentarz! Inspiruje mnie do myślenia o podobieństwie cosinusa w nowy sposób. W moim przypadku użycia może być może potraktować to jako różnicę w końcowych wynikach: jeśli korelacja między Doc A i B jest ujemna, a czasopismo tematyczne X zawiera Doc A, to jest mniej prawdopodobne, że X zawiera B jako cóż, z pewnego średniego prawdopodobieństwa. Czy ta interpretacja wydaje ci się ważna?

Mai

Nie mam odwagi powiedzieć, bo nie znam twoich danych, znaczenia zawartych w nich wartości ani twojego badania.

ttnphns

2

Niech dwa wektory i , kąt jest uzyskiwany przez iloczyn skalarny i normę wektorów: $a$ $b$ $θ$

c o s (θ) = \frac{a \cdot b}{| | a | | \cdot | | b | |}

$cos(\theta) = \frac{a \cdot b}{||a|| \cdot ||b||}$

Ponieważ wartość należy do zakresu : $cos(\theta)$ $[-1,1]$

$-1$ Wartość wskazuje zdecydowanie przeciwne wektory
$0$ niezależnych (ortogonalnych) wektorów
$1$ podobne (dodatnie współliniowe) wektory. Wartości pośrednie służą do oceny stopnia podobieństwa.

Przykład : Pozwól dwóm użytkownikom i oraz podobieństwo między tymi dwoma użytkownikami zgodnie z ich upodobaniami do filmów: $U_1$ $U_2$ $sim(U_1, U_2)$

$sim(U_1, U_2) = 1$ jeśli dwóch użytkowników ma dokładnie taki sam gust (lub jeśli ) $U_1 = U_2$
$sim(U_1, U_2) = 0$ jeśli nie znajdziemy żadnej korelacji między dwoma użytkownikami, np. jeśli nie widzieli żadnych popularnych filmów
$sim(U_1, U_2) = -1$ jeśli użytkownicy mają upodobania, np. jeśli ocenili te same filmy w odwrotny sposób

Thomas FEL
źródło

0

Nie należy używać wartości bezwzględnych, ponieważ znak ujemny nie jest arbitralny. Aby uzyskać wartość cosinus między 0 a 1, należy użyć następującej funkcji cosinus:

(Kod R)

cos.sim <- function(a,b) 
{
  dot_product = sum(a*b)
  anorm = sqrt(sum((a)^2))
  bnorm = sqrt(sum((b)^2))
  minx =-1
  maxx = 1
  return(((dot_product/anorm*bnorm)-minx)/(maxx-minx))
}

(Kod Python)

def cos_sim(a, b):
    """Takes 2 vectors a, b and returns the cosine similarity according 
to the definition of the dot product"""
    dot_product = np.dot(a, b)
    norm_a = np.linalg.norm(a)
    norm_b = np.linalg.norm(b)
    return dot_product / (norm_a * norm_b)

minx = -1 
maxx = 1

cos_sim(row1, row2)- minx)/(maxx-minx)
```

jednorożec
źródło

Gdzie ustawiasz minx i maxx? Możesz zastosować tę normalizację minimalną i maksymalną do wymiarów wektorowych, zamiast obliczonej odległości.

emre może

0

Podobieństwo cosinus jest jak korelacja Pearsona, ale bez odejmowania średnich. Możesz więc porównać względną siłę 2 podobieństw cosinusów, patrząc na wartości bezwzględne, podobnie jak w przypadku porównania wartości bezwzględnych 2 korelacji Pearsona.

Dave
źródło

0

Ma rację, że podobieństwo cosinus między wektorami częstotliwości nie może być ujemne, ponieważ liczba słów nie może być ujemna, ale w przypadku osadzania słów (np. Rękawicy) możesz mieć wartości ujemne.

Uproszczony widok budowy osadzania słów jest następujący: Każde słowo przypisujesz losowemu wektorowi w R ^ d. Następnie uruchom optymalizator, który próbuje przesunąć dwa podobne wektory v1 i v2 blisko siebie lub doprowadzić dwa oddzielne wektory v3 i v4 dalej od siebie (jak na pewien dystans, powiedzmy cosinus). Przeprowadzasz tę optymalizację dla wystarczającej liczby iteracji, a na końcu osadzasz słowa z jedynym kryterium, że podobne słowa mają wektory bliższe, a wektory niepodobne są dalej. Wynik końcowy może sprawić, że niektóre wartości wymiarów będą ujemne, a niektóre pary będą miały ujemne podobieństwo kosinusowe - po prostu dlatego, że proces optymalizacji nie dbał o to kryterium. Możliwe, że spowodowało to, że niektóre wektory osiągnęły wartości ujemne. Wymiary wektorów nie odpowiadają liczbie słów,

poczta npcmail
źródło

Interpretacja ujemnego podobieństwa cosinus

Odpowiedzi: