Właśnie pracuję z książką Collective Intelligence (autor: Toby Segaran) i natknąłem się na euklidesową ocenę odległości. W książce autor pokazuje, jak obliczyć podobieństwo między dwiema tablicami rekomendacji (tj. .
Oblicza odległość euklidesową dla dwóch osób i według p 2 d ( p 1 , p 2 ) = √
Ma to dla mnie całkowicie sens. To, czego tak naprawdę nie rozumiem, to to, dlaczego na końcu oblicza, aby uzyskać „podobieństwo oparte na odległości”:
Jakoś rozumiem, że musi to być konwersja z odległości do podobieństwa (prawda?). Ale dlaczego formuła wygląda tak? Czy ktoś może to wyjaśnić?
distance-functions
similarities
navige
źródło
źródło
Odpowiedzi:
Odwrotna jest zmiana z odległości na podobieństwo.
1 w mianowniku powoduje, że maksymalna wartość wynosi 1 (jeśli odległość wynosi 0).
Pierwiastek kwadratowy - nie jestem pewien. Jeśli odległość jest zwykle większa niż 1, pierwiastek sprawi, że duże odległości będą mniej ważne; jeśli odległość jest mniejsza niż 1, ważniejsze będą duże odległości.
źródło
Aby zmierzyć odległość i podobieństwo (w sensie semantycznym), pierwszą rzeczą do sprawdzenia jest to, czy poruszasz się w przestrzeni euklidesowej, czy nie. Empirycznym sposobem na sprawdzenie tego jest oszacowanie odległości pary wartości, dla których znasz znaczenie.
źródło
Jak już wspomniałeś, znasz obliczanie odległości Euclidence, więc wyjaśniam drugą formułę.
Formuła euklidesowa oblicza odległość, która będzie mniejsza dla osób lub przedmiotów, które są bardziej podobne. Na przykład, jeśli są takie same, odległość wynosi 0 i jest całkowicie inna niż większa niż 0.
Potrzebujemy jednak funkcji, która daje większą wartość, ponieważ są one podobne. Można to zrobić, dodając 1 do funkcji (aby nie pojawiał się błąd dzielenia przez zero) i odwracając ją. Jak gdyby dystans 0 i wynik podobieństwa 1/1 = 1
źródło