Nauka danych - strona 24

11

Jak przetwarzać zapytania w języku naturalnym?

Jestem ciekawy zapytań w języku naturalnym. Stanford ma coś, co wygląda na silny zestaw oprogramowania do przetwarzania języka naturalnego . Widziałem także bibliotekę Apache OpenNLP i architekturę ogólną dla inżynierii tekstu . Istnieje ogromna liczba zastosowań przetwarzania języka naturalnego,...

nlp

11

Czy regresja logistyczna jest w rzeczywistości algorytmem regresji?

Zazwyczaj definicja regresji (o ile mi wiadomo) przewiduje ciągłą zmienną wyjściową z danego zestawu zmiennych wejściowych . Regresja logistyczna jest algorytmem klasyfikacji binarnej, więc daje wyniki jakościowe. Czy to naprawdę algorytm regresji? Jeśli tak, to

algorithms logistic-regression

11

Czy GLM to model statystyczny lub model uczenia maszynowego?

Myślałem, że uogólniony model liniowy (GLM) będzie uważany za model statystyczny, ale przyjaciel powiedział mi, że niektóre artykuły klasyfikują go jako technikę uczenia maszynowego. Który z nich jest prawdziwy (lub bardziej precyzyjny)? Wszelkie wyjaśnienia będą mile...

machine-learning statistics glm

11

Technika ekstrakcji funkcji - podsumowanie sekwencji danych

Często buduję model (klasyfikację lub regresję), w którym mam pewne zmienne predykcyjne, które są sekwencjami, i staram się znaleźć zalecenia dotyczące techniki, aby je podsumować w najlepszy możliwy sposób, aby można je było włączyć do modelu jako predyktory. Jako konkretny przykład, powiedzmy,...

machine-learning feature-selection time-series

11

Gdzie mogę pobrać dane historyczne dotyczące kapitalizacji rynku i dziennych obrotów dla akcji?

Istnieje wiele źródeł, które dostarczają historyczne dane o zapasach, ale podają tylko pola OHLC wraz z objętością i skorygowanym zamknięciem. Kilka źródeł, które znalazłem, dostarcza zestawów danych o kapitalizacji rynkowej, ale są one ograniczone do akcji w USA. Yahoo Finance udostępnia te dane w...

dataset

11

Fisher Scoring v / s Współrzędne Descent dla MLE in R

Funkcja podstawowa R glm()wykorzystuje punktację Fishera dla MLE, podczas gdy glmnetwydaje się, że używa metody opadania współrzędnych do rozwiązania tego samego równania. Opadanie współrzędnych jest bardziej wydajne czasowo niż punktacja Fishera, ponieważ punktacja Fishera oblicza macierz pochodną...

machine-learning r algorithms optimization

11

Zbuduj binarny klasyfikator z danymi dodatnimi i nieznakowanymi

Mam 2 zestawy danych, jeden z pozytywnymi instancjami tego, co chciałbym wykryć, a drugi z nieznakowanymi instancjami. Jakich metod mogę użyć? Przykładowo, załóżmy, że chcemy zrozumieć wykrywanie spamu na podstawie kilku ustrukturyzowanych właściwości wiadomości e-mail. Mamy jeden zestaw danych...

classification semi-supervised-learning

11

Praca z klastrami HPC

Na mojej uczelni mamy klaster obliczeniowy HPC. Używam klastra do szkolenia klasyfikatorów i tak dalej. Zwykle więc, aby wysłać zadanie do klastra (np. Skrypt scikit-learn python), muszę napisać skrypt Bash zawierający (między innymi) polecenie podobne qsub script.py. Uważam jednak ten proces za...

bigdata data-mining

11

Implementacja t-SNE Python: dywergencja Kullbacka-Leiblera

t-SNE, jak w [1], działa poprzez stopniowe zmniejszanie dywergencji Kullbacka-Leiblera (KL), aż do spełnienia pewnego warunku. Twórcy t-SNE sugerują wykorzystanie dywergencji KL jako kryterium wydajności dla wizualizacji: można porównać rozbieżności Kullbacka-Leiblera zgłoszone przez t-SNE....

machine-learning python

11

Wizualizacja danych do analizy wzorców (niezależna od języka, ale preferowana R)

Chcę wykreślić bajty z obrazu dysku, aby zrozumieć wzorzec w nich. Jest to głównie zadanie akademickie, ponieważ jestem prawie pewien, że ten wzorzec został stworzony przez program do testowania dysków, ale i tak chciałbym go przebudować. Wiem już, że wzór jest wyrównany, z częstotliwością 256...

r visualization

11

Uczenie się funkcji bez nadzoru dla NER

Wdrożyłem system NER z wykorzystaniem algorytmu CRF z moimi ręcznie wykonanymi funkcjami, które dawały całkiem dobre wyniki. Chodzi o to, że użyłem wielu różnych funkcji, w tym tagów POS i lematów. Teraz chcę zrobić ten sam NER dla innego języka. Problem polega na tym, że nie mogę używać tagów POS...

nlp text-mining feature-extraction

11

Rozwiązywanie układu równań z rzadkimi danymi

Próbuję rozwiązać zbiór równań, który ma 40 zmiennych niezależnych (x1, ..., x40) i jedną zmienną zależną (y). Całkowita liczba równań (liczba wierszy) wynosi ~ 300, i chcę rozwiązać dla zestawu 40 współczynników, które minimalizują całkowity błąd kwadratowy między y a przewidywaną wartością. Mój...

machine-learning regression algorithms genetic

11

Rozwiązania do ciągłej identyfikacji klastrów online?

Pokażę przykład hipotetycznej aplikacji do klastrowania online: W chwili n punkty 1,2,3,4 są przydzielane do niebieskiej grupy A, a punkty b, 5,6,7 są przydzielane do czerwonej grupy B. W chwili n + 1 wprowadzany jest nowy punkt a, który jest przypisany do niebieskiej gromady A, ale powoduje...

machine-learning clustering

11

Sieć neuronowa do monitorowania serwera

Patrzę na pybrain do przyjmowania alarmów monitorowania serwera i określania głównej przyczyny problemu. Cieszę się ze szkolenia go przy użyciu nadzorowanego uczenia i doboru zestawów danych treningowych. Dane mają następującą strukturę: Typ serwera A # 1 Typ alarmu 1 Typ alarmu 2 Typ serwera A...

machine-learning neural-network

11

Księgowość przebiegów i wyników eksperymentów

Jestem naukowcem i lubię testować realne rozwiązania, więc często przeprowadzam wiele eksperymentów. Na przykład, jeśli obliczam wynik podobieństwa między dokumentami, może chciałbym wypróbować wiele miar. W rzeczywistości dla każdego pomiaru może być konieczne wykonanie kilku przebiegów w celu...

tools experiments

11

Maszyny do faktoryzacji w terenie

Czy ktoś może wyjaśnić, w jaki sposób maszyny do faktoryzacji w terenie (FFM) porównują ze standardowymi maszynami do faktoryzacji (FM)? Standard: http://www.ismll.uni-hildesheim.de/pub/pdfs/Rendle2010FM.pdf „Field Aware”:

machine-learning recommender-system

11

Związek między KS, AUROC i Gini

Wspólne statystyki walidacji modelu, takie jak test Kołmogorowa – Smirnowa (KS), AUROC i współczynnik Giniego, są funkcjonalnie powiązane. Moje pytanie dotyczy jednak udowodnienia, w jaki sposób wszystkie są ze sobą powiązane. Jestem ciekawy, czy ktoś może mi pomóc udowodnić te relacje. Nie udało...

data-mining statistics predictive-modeling accuracy

11

Korzystanie z klastrowania w przetwarzaniu tekstu

Cześć, to moje pierwsze pytanie w stosie Data Science. Chcę stworzyć algorytm do klasyfikacji tekstu. Załóżmy, że mam duży zestaw tekstu i artykułów. Powiedzmy, że około 5000 zwykłych tekstów. Najpierw używam prostej funkcji do określenia częstotliwości wszystkich czterech i więcej słów znakowych....

text-mining clustering

11

Jakiej regresji użyć do obliczenia wyniku wyborów w systemie wielopartyjnym?

Chcę przewidzieć wynik wyborów parlamentarnych. Mój wynik to% otrzymany przez każdą ze stron. Istnieje więcej niż 2 strony, więc regresja logistyczna nie jest realną opcją. Mógłbym dokonać osobnej regresji dla każdej ze stron, ale w takim przypadku wyniki byłyby w pewien sposób niezależne od...

classification r python regression predictive-modeling

11

Konsekwencje skalowania cech

Obecnie używam SVM i skaluję swoje funkcje treningowe do zakresu [0,1]. Najpierw dopasowuję / przekształcam mój zestaw treningowy, a następnie stosuję tę samą transformację do mojego zestawu testowego. Na przykład: ### Configure transformation and apply to training set min_max_scaler =...

machine-learning svm feature-scaling