Identyczne ten sposób, że spowoduje to identyczne wyniki dla podobieństwa kolejności pomiędzy wektorem u i zestaw wektorów V .
Mam model przestrzeni wektorowej, który ma parametry pomiaru odległości (odległość euklidesowa, podobieństwo cosinusa) i techniki normalizacji (brak, l1, l2) jako parametrów. Z mojego zrozumienia, wyniki z ustawień [cosinus, none] powinny być identyczne lub przynajmniej naprawdę bardzo podobne do [euclidean, l2], ale nie są.
Istnieje duża szansa, że system jest nadal wadliwy - czy mam coś bardzo złego w wektorach?
edycja: Zapomniałem wspomnieć, że wektory oparte są na liczbie słów z dokumentów w korpusie. Biorąc pod uwagę dokument zapytania (który również przekształcam w wektor liczenia słów), chcę znaleźć dokument z mojego korpusu, który jest do niego najbardziej podobny.
Samo obliczenie odległości euklidesowej jest prostą miarą, ale w rodzaju zadania, nad którym pracuję, podobieństwo kosinusowe jest często preferowane jako wskaźnik podobieństwa, ponieważ wektory o różnej długości są nadal uważane za równe. Dokument o najmniejszym podobieństwie odległości / cosinusa jest uważany za najbardziej podobny.
Odpowiedzi:
źródło
źródło