Nauka danych

11
Jak przetwarzać zapytania w języku naturalnym?

Jestem ciekawy zapytań w języku naturalnym. Stanford ma coś, co wygląda na silny zestaw oprogramowania do przetwarzania języka naturalnego . Widziałem także bibliotekę Apache OpenNLP i architekturę ogólną dla inżynierii tekstu . Istnieje ogromna liczba zastosowań przetwarzania języka naturalnego,...

11
Praca z klastrami HPC

Na mojej uczelni mamy klaster obliczeniowy HPC. Używam klastra do szkolenia klasyfikatorów i tak dalej. Zwykle więc, aby wysłać zadanie do klastra (np. Skrypt scikit-learn python), muszę napisać skrypt Bash zawierający (między innymi) polecenie podobne qsub script.py. Uważam jednak ten proces za...

11
Uczenie się funkcji bez nadzoru dla NER

Wdrożyłem system NER z wykorzystaniem algorytmu CRF z moimi ręcznie wykonanymi funkcjami, które dawały całkiem dobre wyniki. Chodzi o to, że użyłem wielu różnych funkcji, w tym tagów POS i lematów. Teraz chcę zrobić ten sam NER dla innego języka. Problem polega na tym, że nie mogę używać tagów POS...

11
Sieć neuronowa do monitorowania serwera

Patrzę na pybrain do przyjmowania alarmów monitorowania serwera i określania głównej przyczyny problemu. Cieszę się ze szkolenia go przy użyciu nadzorowanego uczenia i doboru zestawów danych treningowych. Dane mają następującą strukturę: Typ serwera A # 1 Typ alarmu 1 Typ alarmu 2 Typ serwera A...

11
Księgowość przebiegów i wyników eksperymentów

Jestem naukowcem i lubię testować realne rozwiązania, więc często przeprowadzam wiele eksperymentów. Na przykład, jeśli obliczam wynik podobieństwa między dokumentami, może chciałbym wypróbować wiele miar. W rzeczywistości dla każdego pomiaru może być konieczne wykonanie kilku przebiegów w celu...

11
Związek między KS, AUROC i Gini

Wspólne statystyki walidacji modelu, takie jak test Kołmogorowa – Smirnowa (KS), AUROC i współczynnik Giniego, są funkcjonalnie powiązane. Moje pytanie dotyczy jednak udowodnienia, w jaki sposób wszystkie są ze sobą powiązane. Jestem ciekawy, czy ktoś może mi pomóc udowodnić te relacje. Nie udało...

11
Korzystanie z klastrowania w przetwarzaniu tekstu

Cześć, to moje pierwsze pytanie w stosie Data Science. Chcę stworzyć algorytm do klasyfikacji tekstu. Załóżmy, że mam duży zestaw tekstu i artykułów. Powiedzmy, że około 5000 zwykłych tekstów. Najpierw używam prostej funkcji do określenia częstotliwości wszystkich czterech i więcej słów znakowych....

11
Konsekwencje skalowania cech

Obecnie używam SVM i skaluję swoje funkcje treningowe do zakresu [0,1]. Najpierw dopasowuję / przekształcam mój zestaw treningowy, a następnie stosuję tę samą transformację do mojego zestawu testowego. Na przykład: ### Configure transformation and apply to training set min_max_scaler =...