Nauka danych - strona 11

19

Jak wygenerować syntetyczny zestaw danych przy użyciu modelu uczenia maszynowego wyuczonego z oryginalnego zestawu danych?

Zasadniczo model uczenia maszynowego jest oparty na zestawach danych. Chciałbym wiedzieć, czy istnieje jakiś sposób na wygenerowanie syntetycznego zestawu danych przy użyciu takiego wyuczonego modelu uczenia maszynowego, zachowującego oryginalne cechy zestawu danych? [oryginalne dane -> zbuduj...

machine-learning dataset

18

Jak zwiększyć rozwój algorytmu?

Pracując nad eksploracyjną analizą danych i opracowując algorytmy, stwierdzam, że większość mojego czasu spędzam na cyklu wizualizacji, pisania kodu, uruchamiania na małym zbiorze danych, powtarzania. Dane, które posiadam, są zwykle typu wizji komputerowej / fuzji czujników, a algorytmy są ciężkie...

algorithms

18

Grupowanie oparte na wynikach podobieństwa

Załóżmy, że mamy zbiór elementów E i podobieństwo ( nie odległość funkcja) sim (ei, ej) między dwoma elementami El, EJ ∈ E . Jak moglibyśmy (skutecznie) grupować elementy E za pomocą karty SIM ? k- oznacza, na przykład, wymaga określonego k , klastrowanie baldachimu wymaga dwóch wartości...

clustering algorithms similarity

18

Jak dodawać adnotacje do dokumentów tekstowych za pomocą metadanych?

Mając wiele dokumentów tekstowych (w języku naturalnym, nieuporządkowanym), jakie są możliwe sposoby przypisywania im niektórych semantycznych metadanych? Rozważmy na przykład krótki dokument: I saw the company's manager last day. Aby móc z niej wyodrębnić informacje, muszą być opatrzone...

nlp metadata data-cleaning text-mining

18

Jak przewidzieć ruch na podstawie danych z poprzednich szeregów czasowych?

Jeśli mam sklep detaliczny i mam sposób, aby zmierzyć, ile osób wchodzi do mojego sklepu co minutę, i oznaczyć te dane datą, to jak mogę przewidzieć przyszły ruch pieszy? Przyjrzałem się algorytmom uczenia maszynowego, ale nie jestem pewien, którego użyć. W moich danych testowych trend rok do...

machine-learning time-series

18

Czy wymiary t-sne są znaczące?

Czy są jakieś znaczenia dla wymiarów osadzania t-sne? Podobnie jak w przypadku PCA, mamy poczucie maksymalizacji wariancji transformacji liniowej, ale czy dla t-sne jest intuicja oprócz tylko przestrzeni, którą definiujemy do mapowania i minimalizacji odległości

dimensionality-reduction tsne

18

NLP - dlaczego „nie” to słowo stop?

Próbuję usunąć słowa stop przed wykonaniem modelowania tematu. Zauważyłem, że niektóre słowa negacji (nie, ani nigdy, nigdy itd.) Są zwykle uważane za słowa stop. Na przykład NLTK, spacy i sklearn zawierają „not” na swoich listach słów kluczowych. Jeśli jednak usuniemy „nie” z poniższych zdań,...

nlp topic-model sentiment-analysis

18

Kiedy precyzja jest ważniejsza niż przywołanie?

Czy ktoś może podać mi przykłady, w których ważna jest precyzja, oraz przykłady, w których ważne jest

machine-learning evaluation

18

Kiedy zastosować odległość Manhattanu jako przeciwieństwo odległości euklidesowej?

Próbuję poszukać dobrego argumentu na temat tego, dlaczego warto wykorzystać odległość Manhattanu nad odległością euklidesową w uczeniu maszynowym. Najbliższa mi jak dotąd dobra argumentacja dotyczy wykładu MIT . W 36:15 na slajdach można zobaczyć następujące oświadczenie: „Zazwyczaj stosuj dane...

machine-learning classification distance

18

Wyodrębnianie funkcji obrazów w języku Python

W mojej klasie muszę utworzyć aplikację przy użyciu dwóch klasyfikatorów, aby zdecydować, czy obiekt na obrazie jest przykładem phylum porifera (seasponge) czy jakiegoś innego obiektu. Jestem jednak całkowicie zagubiony, jeśli chodzi o techniki ekstrakcji funkcji w pythonie. Mój doradca przekonał...

python feature-extraction image-recognition

18

Zestaw danych do rozpoznawania nazwanych jednostek w tekście nieformalnym

Obecnie szukam zestawów danych z etykietami, aby trenować model wyodrębniania nazwanych elementów z nieformalnego tekstu (coś podobnego do tweetów). Ponieważ w dokumentach w moim zestawie danych często brakuje wielkich liter i gramatyki, szukam danych poza domeną, które są nieco bardziej...

dataset nlp

18

Jakie są / są domyślnymi filtrami używanymi przez Keras Convolution2d ()?

Jestem całkiem nowy w sieciach neuronowych, ale całkiem przyzwoicie rozumiem algebrę liniową i matematykę splotu. Próbuję zrozumieć przykładowy kod znajdujący się w różnych miejscach w sieci do szkolenia splotowego NN Keras z danymi MNIST do rozpoznawania cyfr. Oczekuję, że kiedy utworzę warstwę...

convnet keras

18

Wytyczne dotyczące wyboru optymalizatora do szkolenia sieci neuronowych

Od jakiegoś czasu korzystam z sieci neuronowych. Jednak jedną rzeczą, z którą ciągle mam problemy, jest wybór optymalizatora do szkolenia sieci (przy użyciu backprop). To, co zwykle robię, to zaczynam od jednego (np. Standardowego SGD), a następnie wypróbowuję inne dość losowo. Zastanawiałem się,...

neural-network optimization backpropagation

18

Jaka jest różnica między Inception v2 a Inception v3?

Papier Idąc głębiej ze zwojów opisuje GoogleNet który zawiera oryginalne moduły powstania: Zmiana na początek v2 polegała na tym, że zastąpiły one splot 5x5 dwoma kolejnymi splotami 3x3 i zastosowały pule: Jaka jest różnica między Inception v2 a Inception

image-classification convnet computer-vision inception

18

Popraw szybkość implementacji t-sne w pythonie dla dużych danych

Chciałbym zmniejszyć wymiarowość na prawie 1 milionach wektorów, każdy o 200 wymiarach ( doc2vec). Używam do tego TSNEimplementacji z sklearn.manifoldmodułu, a głównym problemem jest złożoność czasu. Mimo method = barnes_hutto szybkość obliczeń jest wciąż niska. Czasami nawet kończy się...

python bigdata nlp scikit-learn dimensionality-reduction

18

Word2Vec vs. Sentence2Vec vs. Doc2Vec

Niedawno natknąłem się na terminy Word2Vec , Sentence2Vec i Doc2Vec i trochę zdezorientowany, ponieważ jestem nowy w semantyce wektorowej. Czy ktoś może wyjaśnić różnice w tych metodach prostymi słowami. Jakie są najbardziej odpowiednie zadania dla każdej

machine-learning data-mining clustering nlp unsupervised-learning

18

Czy pandy są teraz szybsze niż data.table?

https://github.com/Rdatatable/data.table/wiki/Benchmarks-%3A-Grouping Testy danych data.table nie były aktualizowane od 2014 roku. Słyszałem, że gdzieś Pandasjest teraz szybciej niż data.table. Czy to prawda? Czy ktoś zrobił jakieś testy porównawcze? Nigdy wcześniej nie korzystałem z Pythona, ale...

python r pandas data data.table

18

Jaka jest zaleta utrzymywania wielkości partii na poziomie 2?

Dlaczego podczas szkolenia modeli uczenia maszynowego czasami korzystne jest utrzymanie wielkości partii na poziomie 2? Pomyślałem, że najlepiej będzie użyć rozmiaru, który najlepiej pasuje do twojej pamięci / RAM GPU. Ta odpowiedź twierdzi, że dla niektórych pakietów moc 2 jest lepsza jako...

machine-learning training

18

czy jest jakieś narzędzie do porządkowania danych dla pytona / pandy podobne do narzędzia R tidyr?

Pracuję nad wyzwaniem Kaggle, w którym niektóre zmienne są reprezentowane przez wiersze zamiast kolumn (zakłócenia sieci Telstra). Obecnie szukam odpowiednika funkcji gromadzenia (), separacji () i rozprzestrzeniania (), które można znaleźć w narzędziu R

r python dataset data-cleaning pandas

18

Jak radzić sobie z etykietami ciągów w klasyfikacji wielu klas za pomocą keras?

Jestem początkującym w uczeniu maszynowym i keras, a teraz pracuję nad problemem klasyfikacji klas obrazów za pomocą keras. Wejście jest oznaczone obrazem. Po wstępnym przetworzeniu dane szkoleniowe są reprezentowane na liście Python jako: [["dog", "path/to/dog/imageX.jpg"],["cat",...

machine-learning scikit-learn tensorflow keras encoding