Mam ten poboczny projekt, w którym indeksuję lokalne serwisy informacyjne w moim kraju i chcę zbudować wskaźnik przestępczości i wskaźnik niestabilności politycznej. Omówiłem już część projektu dotyczącą wyszukiwania informacji. Mój plan to zrobić:
- Ekstrakcja tematu bez nadzoru.
- Wykrywanie bliskich duplikatów.
- Nadzorowana klasyfikacja i poziom incydentów (przestępczość / polityka - wysoka / średnia / niska).
Będę używać Pythona i Sklearn i już zbadałem algorytmy, których mogę użyć do tych zadań. Wydaje mi się, że 2. może mi podnieść współczynnik trafności historii: im więcej artykułów opublikuje się na temat historii lub tematu, tym bardziej będzie on odpowiedni na ten dzień.
Kolejnym krokiem jest zbudowanie miesięcznego, tygodniowego i dziennego indeksu (ogólnokrajowego i według miast) w oparciu o funkcje, które posiadam, i jestem trochę zagubiony, ponieważ „wrażliwość na niestabilność” może wzrosnąć z czasem. Chodzi mi o to, że wskaźnik z incydentu z poważną niestabilnością w ubiegłym roku może być mniejszy niż wskaźnik na ten rok. Również, jeśli chcesz użyć stałej skali 0-100 lub nie.
Później chciałbym móc na podstawie tego przewidzieć incydenty, np. Czy kolejność wydarzeń w ostatnich tygodniach prowadzi do poważnego incydentu. Ale na razie będę zadowolony z uruchomienia klasyfikacji i zbudowania modelu indeksu.
Byłbym wdzięczny za każdy wskaźnik do artykułu, odpowiednie odczyty lub przemyślenia. Dzięki.
PD: Przepraszam, jeśli pytanie tu nie należy.
AKTUALIZACJA : Jeszcze nie „udało mi się”, ale ostatnio pojawiła się wiadomość o grupie naukowców pracujących w systemie do przewidywania wydarzeń za pomocą archiwów wiadomości i wydała odpowiedni artykuł „ Wydobywanie Internetu w celu przewidywania przyszłych wydarzeń” (PDF ).
źródło
Odpowiedzi:
Rozważ różnice w wyniku GINI.
Jest znormalizowany, a jego wyniki wahają się od 0 do 1.
EDYTOWAĆ:
Dlaczego GINI jest „fajny” lub przynajmniej potencjalnie odpowiedni:
Jest to miara nierówności lub nierówności. Jest on stosowany jako miara wolna od skali do scharakteryzowania heterogeniczności sieci pozbawionych skali, w tym sieci nieskończonych i losowych. Jest przydatny w budowaniu drzew CART, ponieważ jest miarą siły podziału określonego podziału danych.
Ze względu na jego zasięg:
Ponieważ jest znormalizowany:
Bibliografia:
źródło