Pytania oznaczone «text-mining»

Odnosi się do podzbioru eksploracji danych związanych z wydobywaniem informacji z danych w postaci tekstu poprzez rozpoznawanie wzorców. Celem eksploracji tekstu jest często automatyczne zaklasyfikowanie danego dokumentu do jednej z wielu kategorii i dynamiczna poprawa tej wydajności, co czyni go przykładem uczenia maszynowego. Jednym z przykładów tego typu eksploracji tekstu są filtry spamu używane w wiadomościach e-mail.

29
Dlaczego xgboost jest o wiele szybszy niż sklearn GradientBoostingClassifier?

Próbuję wytrenować model zwiększania gradientu na ponad 50 tysiącach przykładów ze 100 funkcjami numerycznymi. XGBClassifierobsługuje 500 drzew w ciągu 43 sekund na mojej maszynie, a GradientBoostingClassifierobsługuje tylko 10 drzew (!) w 1 minutę i 2 sekundy :( Nie zawracałem sobie głowy próbą...

17
powiększ mapę cieplną dna morskiego

Tworzę plik corr()df z oryginalnego pliku df. corr()Df wyszedł 70 x 70 i to jest niemożliwe, aby wyobrazić sobie mapę cieplną ... sns.heatmap(df). Jeśli spróbuję wyświetlić corr = df.corr(), tabela nie pasuje do ekranu i widzę wszystkie korelacje. Czy jest to sposób na wydrukowanie całości dfbez...

17
Algorytmy klastrowania tekstu

Mam problem z grupowaniem ogromnej liczby zdań w grupy według ich znaczenia. Jest to podobne do problemu, gdy masz wiele zdań i chcesz je pogrupować według ich znaczenia. Jakie algorytmy są zalecane? Nie wiem z góry liczby klastrów (a ponieważ nadchodzi więcej danych, klastry również mogą się...

16
Wyodrębnij najbardziej pouczające części tekstu z dokumentów

Czy są jakieś artykuły lub dyskusje na temat wyodrębnienia części tekstu, która zawiera najwięcej informacji o bieżącym dokumencie. Na przykład mam duży zbiór dokumentów z tej samej domeny. Istnieją fragmenty tekstu zawierające kluczowe informacje, o których mówi pojedynczy dokument. Chcę...

14
Jak wykonać dopasowanie rozmyte adresów pocztowych?

Chciałbym wiedzieć, jak dopasować adresy pocztowe, gdy ich format różni się lub gdy jeden z nich jest źle zapisany. Do tej pory znalazłem różne rozwiązania, ale myślę, że są one dość stare i niezbyt wydajne. Jestem pewien, że istnieją lepsze metody, więc jeśli masz dla mnie referencje, jestem...

13
Etyczne i ekonomiczne skalowanie skalowania danych

Niewiele rzeczy w życiu sprawia mi przyjemność, jak skrobanie uporządkowanych i nieustrukturyzowanych danych z Internetu i wykorzystywanie ich w moich modelach. Na przykład zestaw narzędzi Data Science Toolkit (lub RDSTKdla programistów R) pozwala mi wyciągać wiele dobrych danych opartych na...

12
Algorytm dopasowywania preferencji

Pracuję nad tym projektem pobocznym, w którym muszę opracować rozwiązanie następującego problemu. Mam dwie grupy osób (klientów). Grupa Azamierza kupić, a grupa Bzamierza sprzedać określony produkt X. Produkt ma szereg atrybutów x_i, a moim celem jest ułatwienie transakcji Ai Bdopasowanie ich...

11
Korzystanie z klastrowania w przetwarzaniu tekstu

Cześć, to moje pierwsze pytanie w stosie Data Science. Chcę stworzyć algorytm do klasyfikacji tekstu. Załóżmy, że mam duży zestaw tekstu i artykułów. Powiedzmy, że około 5000 zwykłych tekstów. Najpierw używam prostej funkcji do określenia częstotliwości wszystkich czterech i więcej słów znakowych....