Pytania oznaczone «text-mining»

Odnosi się do podzbioru eksploracji danych związanego z wydobywaniem informacji z danych w postaci tekstu poprzez rozpoznawanie wzorców. Celem eksploracji tekstu jest często automatyczne zaklasyfikowanie danego dokumentu do jednej z wielu kategorii oraz dynamiczne poprawienie tej wydajności, co czyni ją przykładem uczenia maszynowego. Jednym z przykładów tego typu eksploracji tekstu są filtry antyspamowe używane w wiadomościach e-mail.

77
Przykład: regresja LASSO z użyciem glmnet dla wyniku binarnego

Zaczynam bawić sięglmnet za pomocą regresji LASSO, gdzie moje wyniki zainteresowania są dychotomiczne. Poniżej utworzyłem małą próbną ramkę danych: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29,...

69
Jak działa warstwa „Osadzanie” Keras?

Musisz zrozumieć działanie warstwy „Osadzanie” w bibliotece Keras. Wykonuję następujący kod w Pythonie import numpy as np from keras.models import Sequential from keras.layers import Embedding model = Sequential() model.add(Embedding(5, 2, input_length=5)) input_array = np.random.randint(5,...

36
Jak quasi dopasować dwa wektory ciągów (w R)?

Nie jestem pewien, jak to nazwać, więc popraw mnie, jeśli znasz lepszy termin. Mam dwie listy. Jeden z 55 elementów (np .: wektor ciągów), drugi z 92. Nazwy elementów są podobne, ale nie identyczne. Życzę, aby znaleźć najlepszego kandydata s w liście do pozycji na liście 55 (będę wtedy przejść...

32
Klasyfikacja statystyczna tekstu

Jestem programistą bez tła statystycznego i obecnie szukam różnych metod klasyfikacji dla dużej liczby różnych dokumentów, które chcę zaklasyfikować do wstępnie zdefiniowanych kategorii. Czytałem o kNN, SVM i NN. Mam jednak problemy z rozpoczęciem pracy. Jakie zasoby polecasz? Znam rachunek jednej...

20
Czy zgłoszono najnowszą wydajność wykorzystania wektorów akapitowych do analizy sentymentów?

Byłem pod wrażeniem wyników w artykule ICML 2014 „ Rozproszone reprezentacje zdań i dokumentów ” Le i Mikołaja. Technika, którą opisują, zwana „wektorami akapitowymi”, uczy się nienadzorowanej reprezentacji arbitralnie długich akapitów / dokumentów, w oparciu o rozszerzenie modelu word2vec. W...

18
Klasyfikacja tekstu na dużą skalę

Chcę dokonać klasyfikacji na podstawie moich danych tekstowych. Mam 300 classes200 dokumentów szkoleniowych na klasę (więc 60000 documents in total), co może skutkować bardzo wysokimi wymiarami danych (być może szukamy ponad 1 milion wymiarów ). Chciałbym wykonać następujące kroki w przygotowaniu...