Odległość euklidesowa i podobieństwo

13

Właśnie pracuję z książką Collective Intelligence (autor: Toby Segaran) i natknąłem się na euklidesową ocenę odległości. W książce autor pokazuje, jak obliczyć podobieństwo między dwiema tablicami rekomendacji (tj. .person×moviescore)

Oblicza odległość euklidesową dla dwóch osób i według p 2 d ( p 1 , p 2 ) = p1p2

d(p1,p2)=i  item(sp1sp2)2

Ma to dla mnie całkowicie sens. To, czego tak naprawdę nie rozumiem, to to, dlaczego na końcu oblicza, aby uzyskać „podobieństwo oparte na odległości”:

11+d(p1,p2)

Jakoś rozumiem, że musi to być konwersja z odległości do podobieństwa (prawda?). Ale dlaczego formuła wygląda tak? Czy ktoś może to wyjaśnić?

navige
źródło
Istnieje wiele sposobów na przekształcenie wzajemnych podobieństw i podobieństw - konkretna formuła zależy od tego, co ma dla ciebie sens i na przyszłość. W tym podręczniku autor wolał formułę, którą pokazałeś z jakiegoś powodu; ktoś inny w innej sytuacji może wybrać inną formułę. Najbardziej poprawny geometrycznie sposób przekształcenia odległości euklidesowej w podobieństwo wynikałby z twierdzenia cosinus w warunkach centrowania danych i jest opisany tutaj w par. 1.
ttnphns
Dobrze! Ale jeśli dobrze rozumiem, tak naprawdę nie przekształcasz odległości euklidesowej w podobieństwo, ale po prostu używasz innej funkcji, która zwraca ci wartości z zakresu 0 i 1 (z powodu cosinusa), prawda? Mam na myśli, że wydaje mi się inaczej niż obliczanie wszystkich odległości, a następnie przekształcanie ich w podobieństwo, np. Interpolując między najmniejszą i największą odległością. Dobrze?
navige
Jeśli masz kwadratową macierz symetryczną kwadratowych odległości euklidesowych i wykonujesz na niej operację „podwójnego centrowania”, to otrzymujesz macierz produktów skalarnych, które byłyby obserwowane, gdy umieścisz początek przestrzeni euklidesowej w centrum konfiguracji przedmioty Te produkty skalarne podobieństwami kątowymi. Są bardzo podobne do kowariancji . Nie są ograniczone w zakresie 0-1, mogą być ujemne, dodatnie, a elementy ukośne niekoniecznie są 1. Mimo to są one podobieństwami.
ttnphns

Odpowiedzi:

12

Odwrotna jest zmiana z odległości na podobieństwo.

1 w mianowniku powoduje, że maksymalna wartość wynosi 1 (jeśli odległość wynosi 0).

Pierwiastek kwadratowy - nie jestem pewien. Jeśli odległość jest zwykle większa niż 1, pierwiastek sprawi, że duże odległości będą mniej ważne; jeśli odległość jest mniejsza niż 1, ważniejsze będą duże odległości.

Peter Flom - Przywróć Monikę
źródło
Przepraszam! Pierwiastek kwadratowy był nieprawidłowy. Autor faktycznie umieścił go w drugiej formule, ale pominął go w pierwszej. Więc nie powinno tam być
navige
Tak, ale wskazówka dotycząca ustawienia wartości maksymalnej na 1 ma sens! Dzięki!
navige
4

Aby zmierzyć odległość i podobieństwo (w sensie semantycznym), pierwszą rzeczą do sprawdzenia jest to, czy poruszasz się w przestrzeni euklidesowej, czy nie. Empirycznym sposobem na sprawdzenie tego jest oszacowanie odległości pary wartości, dla których znasz znaczenie.

Claudio Martines
źródło
1

Jak już wspomniałeś, znasz obliczanie odległości Euclidence, więc wyjaśniam drugą formułę.

Formuła euklidesowa oblicza odległość, która będzie mniejsza dla osób lub przedmiotów, które są bardziej podobne. Na przykład, jeśli są takie same, odległość wynosi 0 i jest całkowicie inna niż większa niż 0.

Potrzebujemy jednak funkcji, która daje większą wartość, ponieważ są one podobne. Można to zrobić, dodając 1 do funkcji (aby nie pojawiał się błąd dzielenia przez zero) i odwracając ją. Jak gdyby dystans 0 i wynik podobieństwa 1/1 = 1

użytkownik10009133
źródło
Nie rozumiem tej odpowiedzi.
Michael R. Chernick,
ok, powiedzmy, że odległość euklidesowa między pozycją 1 a pozycją 2 wynosi 4, a między pozycją 1 a pozycją 3 wynosi 0 (oznacza, że ​​są w 100% podobne). Są to odległości przedmiotów w wirtualnej przestrzeni. mniejsza wartość odległości oznacza, że ​​są one blisko siebie, co oznacza większe prawdopodobieństwo ich zbliżenia. Teraz chcemy wartości liczbowej, która daje wyższą liczbę, jeśli są one bardzo podobne. Możemy więc odwrócić wartość odległości. Ale co, jeśli mamy dystans, wynosi 0, dlatego dodajemy 1 do mianownika. tak więc wynik podobieństwa dla pozycji 1 i 2 wynosi 1 / (1 + 4) = 0,2, a dla pozycji 1 i pozycji 3 wynosi 1 / (1 + 0) = 0
użytkownik10009133
Być może mówisz o jakiejś mierze odległości, ale odległość euklidesowa opiera się na określonej formule dotyczącej przestrzeni wektorowej.
Michael R. Chernick,
Wyjaśniam, dlaczego na końcu obliczamy, aby uzyskać „podobieństwo oparte na odległości”: 1/1+d(p1,p2)
1/1