Moja firma chce stworzyć wizualizację PivotViewer postów na blogu Wordpress 2 klienta przez ostatnie 11 lat. Aby to zrobić, musimy jednak edytować nieco przypadkowe, niekompletne i ogólnie kiepskie tagi do wykorzystania jako kategorie do sortowania. Szukam narzędzia, które przeanalizuje ich wpisy na blogu i przeprowadzi liczenie słów, aby dać nam pojęcie o tym, z czym mamy do czynienia.
Idealnie byłoby mieć wszystkie te funkcje:
- Słowo czarna lista (ignoruj)
- Słowo związane
- Niestandardowe scalanie synonimów
- Licząc wszystkie zastosowania
- Liczenie postów, w których pojawia się słowo.
Myślałem, że tego rodzaju analiza tekstowa byłaby niezwykle powszechna, ale nie znalazłem żadnego oprogramowania, które robi takie rzeczy na całych blogach. Czy jest do tego dostępne oprogramowanie?
software-rec
statistics
blogging
word-count
Brian Bauman
źródło
źródło
Odpowiedzi:
Oprogramowanie, którego szukasz, może mieć wiele tytułów, takich jak „Analiza treści” , „Chmura tagów” lub „Meta tagi” i wiele innych, takich jak „analiza tekstu” i „eksploracja tekstu”.
Istnieje bardzo wiele narzędzi programowych do tych celów, zarówno bezpłatnych, jak i komercyjnych.
Nie mam osobistego doświadczenia z takimi narzędziami, ale dobrym miejscem na początek są narzędzia do analizy tekstu, w których wymieniono dziesiątki takich narzędzi, zarówno bezpłatnych, jak i komercyjnych.
Inną taką listą jest oprogramowanie do analizy tekstu, eksploracji tekstu i wyszukiwania informacji .
źródło
Spójrz na Rapidminer lub Weka
Ponieważ jest to blog klientów, prawdopodobnie masz dostęp do bazy danych. Pobierz wszystkie artykuły jako zwykły tekst i skorzystaj z jednego z powyższych programów, aby odpowiedzieć na pytania dotyczące przetwarzania języka naturalnego (1,2,3 i 5).
Naprawdę zautomatyzowana jest liczba zastosowań, ponieważ ma to związek z automatycznym określaniem znaczenia słów za pomocą kontekstu.
źródło
jednym z najbardziej oprogramowania do analizy treści jest WordStat zaprojektowany przez Provalis Research
WordStat to moduł analizy tekstu dla QDA Miner lub SimStat. WordStat łączy metodę analizy treści za pomocą słownika i wielu algorytmów eksploracji lub różnych metod eksploracji tekstu. WordStat może zastosować istniejące słowniki kategoryzacji do nowego korpusu tekstu. Może być również wykorzystywany do opracowywania i sprawdzania poprawności nowych słowników kategoryzacji. W połączeniu z ręcznym kodowaniem moduł ten może pomóc w bardziej systematycznym stosowaniu reguł kodowania, pomóc odkryć różnice w użyciu słów między podgrupami osób i pomóc w rewizji istniejącego kodowania za pomocą tabel KWIC (Keyword In Context). WordStat został specjalnie zaprojektowany do badania informacji tekstowych, takich jak odpowiedzi na pytania otwarte, wywiady, tytuły, artykuły w czasopismach, wystąpienia publiczne, komunikacja elektroniczna itp.
http://provalisresearch.com/products/content-analysis-software/
źródło
Możesz spróbować Mathematica Wolframa . Będziesz musiał trochę zaprogramować, ale są tam wszystkie potrzebne narzędzia:
źródło
Na niektóre z tych pytań można odpowiedzieć w szybki i brudny sposób za pomocą wyszukiwarki Google na swoim blogu (najłatwiej, jeśli ma własną domenę).
źródło
Zemanta analizuje i może sugerować tagi i linki. To także wtyczka wordpress.
Jedyny problem: w obecnym stanie wymaga ręcznego otwierania oraz wybierania i zapisywania każdego postu.
Istnieje jednak ogromna liczba wtyczek automatycznego tagowania dla wordpress. Powinieneś przeszukać wyszukiwarkę wtyczek i spróbować.
źródło