Jaka jest / są różnice między tymi modelami reprezentacji tekstu: Worek słów i model przestrzeni wektorowej?
machine-learning
text-mining
samsamara
źródło
źródło
Odpowiedzi:
Worek słów i model przestrzeni wektorowej odnoszą się do różnych aspektów charakteryzowania tekstu, na przykład dokumentu. Zostały one dobrze opisane w podręczniku „Przetwarzanie mowy i języka” Jurafsky'ego i Martina, 2009, w części 23.1 na temat wyszukiwania informacji. Bardziej zwięzłe odniesienie to „Wprowadzenie do wyszukiwania informacji” autorstwa Manninga, Raghavan i Schütze, 2008, w części „Wektorowy model przestrzeni do punktacji”.
Bag-of-words odnosi się do tego, jakie informacje można wyciągnąć z dokumentu (mianowicie unigram words). Model przestrzeni wektorowej odnosi się do struktury danych dla każdego dokumentu (mianowicie wektora cech par wagowych terminów i terminów). Oba aspekty się uzupełniają.
Dokładniej:
Worek słów : dla danego dokumentu wyodrębniasz tylko słowa unigram (aka terminy), aby utworzyć nieuporządkowaną listę słów. Bez tagu POS, bez składni, semantyki, bez pozycji, bez ramek, bez trygramów. Tylko same słowa unigram, tworząc kilka słów reprezentujących dokument. Zatem: worek słów .
Model przestrzeni wektorowej : biorąc pod uwagę zestaw słów wyodrębnionych z dokumentu, tworzysz wektor elementu dla dokumentu, w którym każda cecha jest słowem (terminem), a wartość cechy jest wagą terminu. Termin waga może być:
Cały dokument jest zatem wektorem cech, a każdy wektor cech odpowiada punktowi w przestrzeni wektorowej . Model tej przestrzeni wektorowej jest taki, że dla każdego terminu w słowniku znajduje się oś, a zatem przestrzeń wektorowa ma wymiar V , gdzie V jest rozmiarem słownictwa. Wektor powinien więc również być koncepcyjnie V- wymiarowy z cechą dla każdego terminu słownikowego. Ponieważ jednak słownictwo może być duże (rzędu V = 100 000 wyrażeń), wektor cech dokumentu zazwyczaj zawiera tylko te, które wystąpiły w tym dokumencie i pomija te, które tego nie zrobiły. Taki wektor cech jest uważany za rzadki .
Przykładowa wektorowa reprezentacja dokumentu może więc wyglądać następująco:
gdzie ten przykładowy wektor ma identyfikator dokumentu (np. 42), etykietę prawdziwości gruntu (np. polityka) oraz listę cech i wartości cech obejmujących pary częstotliwości i terminów. Tutaj widać, że słowo „nieobecny” wystąpiło 2 razy w tym dokumencie.
źródło
Czy za pomocą Bag of Words przypisujesz częstotliwość słowa do elementu macierzy terminu dokumentu, a w modelu przestrzeni wektorowej elementy macierzy terminu dokumentu są dość ogólne, o ile operacje (iloczyn punktowy) w przestrzeni wektorowej mają sens (wagi tf-idf, dla przykład)?
źródło