Pytania oznaczone «reinforcement-learning»

30

Co to jest funkcja Q i jaka jest funkcja V w uczeniu się przez wzmocnienie?

Wydaje mi się, że funkcja VVV może być łatwo wyrażona przez funkcję QQQ a zatem funkcja VVV wydaje mi się zbędna. Jednak jestem nowy w uczeniu się przez wzmacnianie, więc chyba coś poszło nie tak. Definicje Q- i V-learning są w kontekście procesów decyzyjnych Markowa . MDP jest 5-krotny...

machine-learning reinforcement-learning

29

Dlaczego xgboost jest o wiele szybszy niż sklearn GradientBoostingClassifier?

Próbuję wytrenować model zwiększania gradientu na ponad 50 tysiącach przykładów ze 100 funkcjami numerycznymi. XGBClassifierobsługuje 500 drzew w ciągu 43 sekund na mojej maszynie, a GradientBoostingClassifierobsługuje tylko 10 drzew (!) w 1 minutę i 2 sekundy :( Nie zawracałem sobie głowy próbą...

scikit-learn xgboost gbm data-mining classification data-cleaning machine-learning reinforcement-learning data-mining bigdata dataset nlp language-model stanford-nlp machine-learning neural-network deep-learning randomized-algorithms machine-learning beginner career xgboost loss-function neural-network software-recommendation naive-bayes-classifier classification scikit-learn feature-selection r random-forest cross-validation data-mining python scikit-learn random-forest churn python clustering k-means machine-learning nlp sentiment-analysis machine-learning programming python scikit-learn nltk gensim visualization data csv neural-network deep-learning descriptive-statistics machine-learning supervised-learning text-mining orange data parameter-estimation python pandas scraping r clustering k-means unsupervised-learning

25

Różnica między siecią polis AlphaGo a siecią wartości

Czytałem podsumowanie wysokiego poziomu na temat Google AlphaGo ( http://googleresearch.blogspot.co.uk/2016/01/alphago-mastering-ancient-game-of-go.html ) i spotkałem się z terminem „zasady sieć ”i„ sieć wartości ”. Rozumiem na wysokim poziomie, że sieć strategii służy do sugerowania ruchów, a sieć...

machine-learning reinforcement-learning

23

Czym dokładnie jest bootstrapping w uczeniu się przez wzmacnianie?

Najwyraźniej w uczeniu się przez wzmocnienie metoda różnic czasowych (TD) jest metodą ładowania początkowego. Z drugiej strony metody Monte Carlo nie są metodami ładowania początkowego. Czym dokładnie jest ładowanie w RL? Co to jest metoda ładowania początkowego w

reinforcement-learning

19

Co to jest „powtórka z doświadczenia” i jakie są jej zalety?

Czytam gazetę Google DeepMind Atari i staram się zrozumieć pojęcie „powtórki z doświadczenia”. Powtórka z doświadczenia pojawia się w wielu innych dokumentach do nauki o wzmocnieniu (szczególnie w AlphaGo), więc chcę zrozumieć, jak to działa. Poniżej znajdują się niektóre fragmenty. Po pierwsze,...

reinforcement-learning q-learning

13

AlphaGo (i inne programy do gier wykorzystujące uczenie się przez wzmacnianie) bez ludzkiej bazy danych

Nie jestem specjalistą w tej dziedzinie, a moje pytanie jest prawdopodobnie bardzo naiwne. Wynika to z eseju, który ma na celu zrozumienie mocy i ograniczeń uczenia się przez wzmacnianie, jakie zastosowano w programie AlphaGo. Program AlphaGo został zbudowany przy użyciu m.in. program przeciwko...

reinforcement-learning

12

Uczenie nadzorowane a uczenie się wzmacniające dla prostego samochodu rc z własnym napędem

Dla zabawy buduję zdalnie sterowany samochód. Używam Raspberry Pi jako komputera pokładowego; i używam różnych wtyczek, takich jak kamera Raspberry Pi i czujniki odległości, aby uzyskać informacje zwrotne na temat otoczenia samochodu. Używam OpenCV do przekształcania klatek wideo w tensory i używam...

reinforcement-learning supervised-learning

11

Czy są jakieś dobre gotowe modele językowe dla Pythona?

Prototypuję aplikację i potrzebuję modelu językowego, aby obliczyć zakłopotanie w przypadku niektórych wygenerowanych zdań. Czy istnieje jakiś wyuczony model języka w Pythonie, którego można łatwo używać? Coś prostego jak model = LanguageModel('en') p1 = model.perplexity('This is a well...

python nlp language-model r statistics linear-regression machine-learning classification random-forest xgboost python sampling data-mining orange predictive-modeling recommender-system statistics dimensionality-reduction pca machine-learning python deep-learning keras reinforcement-learning neural-network image-classification r dplyr deep-learning keras tensorflow lstm dropout machine-learning sampling categorical-data data-imputation machine-learning deep-learning machine-learning-model dropout deep-network pandas data-cleaning data-science-model aggregation python neural-network reinforcement-learning policy-gradients r dataframe dataset statistics prediction forecasting r k-means python scikit-learn labels python orange cloud-computing machine-learning neural-network deep-learning rnn recurrent-neural-net logistic-regression missing-data deep-learning autoencoder apache-hadoop time-series data preprocessing classification predictive-modeling time-series machine-learning python feature-selection autoencoder deep-learning keras tensorflow lstm word-embeddings predictive-modeling prediction machine-learning-model machine-learning classification binary theory machine-learning neural-network time-series lstm rnn neural-network deep-learning keras tensorflow convnet computer-vision

10

wprowadzenie różnicy czasowej w szachach

Opracowuję program szachowy, który wykorzystuje algorytm przycinania alfa-beta i funkcję oceny, która ocenia pozycje za pomocą następujących cech, a mianowicie materiału, bezpieczeństwa królewskiego, mobilności, struktury pionków i pułapek itp. Moja funkcja oceny to pochodzące z fa( p ) = w1⋅...

machine-learning algorithms reinforcement-learning

10

Kooperacyjne uczenie się przez wzmacnianie

Mam już działającą implementację dla pojedynczego agenta pracującego nad problemem cen dynamicznych w celu maksymalizacji przychodów. Problem, z którym pracuję, wiąże się jednak z kilkoma różnymi produktami, które są dla siebie zamiennikami, więc dynamiczna wycena ich wszystkich przez niezależnych...

machine-learning reinforcement-learning

10

Książki o uczeniu się przez zbrojenie

Od jakiegoś czasu staram się zrozumieć uczenie się o wzmocnieniu, ale jakoś nie jestem w stanie wyobrazić sobie, jak napisać program do nauki o wzmocnieniu, aby rozwiązać problem związany ze światem sieci. Czy możesz zasugerować mi kilka podręczników, które pomogłyby mi zbudować jasną koncepcję...

machine-learning books reinforcement-learning

9

Czy uczenie się przez wzmocnienie można zastosować do prognozowania szeregów czasowych?

time-series reinforcement-learning forecasting