Chcę zbudować wskaźnik przestępczości i wskaźnik niestabilności politycznej oparty na wiadomościach

17

Mam ten poboczny projekt, w którym indeksuję lokalne serwisy informacyjne w moim kraju i chcę zbudować wskaźnik przestępczości i wskaźnik niestabilności politycznej. Omówiłem już część projektu dotyczącą wyszukiwania informacji. Mój plan to zrobić:

  • Ekstrakcja tematu bez nadzoru.
  • Wykrywanie bliskich duplikatów.
  • Nadzorowana klasyfikacja i poziom incydentów (przestępczość / polityka - wysoka / średnia / niska).

Będę używać Pythona i Sklearn i już zbadałem algorytmy, których mogę użyć do tych zadań. Wydaje mi się, że 2. może mi podnieść współczynnik trafności historii: im więcej artykułów opublikuje się na temat historii lub tematu, tym bardziej będzie on odpowiedni na ten dzień.

Kolejnym krokiem jest zbudowanie miesięcznego, tygodniowego i dziennego indeksu (ogólnokrajowego i według miast) w oparciu o funkcje, które posiadam, i jestem trochę zagubiony, ponieważ „wrażliwość na niestabilność” może wzrosnąć z czasem. Chodzi mi o to, że wskaźnik z incydentu z poważną niestabilnością w ubiegłym roku może być mniejszy niż wskaźnik na ten rok. Również, jeśli chcesz użyć stałej skali 0-100 lub nie.

Później chciałbym móc na podstawie tego przewidzieć incydenty, np. Czy kolejność wydarzeń w ostatnich tygodniach prowadzi do poważnego incydentu. Ale na razie będę zadowolony z uruchomienia klasyfikacji i zbudowania modelu indeksu.

Byłbym wdzięczny za każdy wskaźnik do artykułu, odpowiednie odczyty lub przemyślenia. Dzięki.

PD: Przepraszam, jeśli pytanie tu nie należy.

AKTUALIZACJA : Jeszcze nie „udało mi się”, ale ostatnio pojawiła się wiadomość o grupie naukowców pracujących w systemie do przewidywania wydarzeń za pomocą archiwów wiadomości i wydała odpowiedni artykuł „ Wydobywanie Internetu w celu przewidywania przyszłych wydarzeń” (PDF ).

Rolando Max
źródło
Jeśli chodzi o część techniczną (narzędzia), poleciłbym dwie książki jako dobry punkt widzenia zarówno z O'Reiley: Collective Intelligence (z kodem Python), Machine Learning (z kodem R) ... przechwytują tematy związane z twoim. Następnym krokiem może być strona Manning ... W części metodologicznej poleciłbym grupę Semantic Web na LinkedIn.
Radu Marius Florin,
Bardzo podobne do tego pytania. Informuj nas na bieżąco !!
entropia

Odpowiedzi:

1

Rozważ różnice w wyniku GINI.

Jest znormalizowany, a jego wyniki wahają się od 0 do 1.

EDYTOWAĆ:

Dlaczego GINI jest „fajny” lub przynajmniej potencjalnie odpowiedni:

Jest to miara nierówności lub nierówności. Jest on stosowany jako miara wolna od skali do scharakteryzowania heterogeniczności sieci pozbawionych skali, w tym sieci nieskończonych i losowych. Jest przydatny w budowaniu drzew CART, ponieważ jest miarą siły podziału określonego podziału danych.

Ze względu na jego zasięg:

  • jest mniej błędów zaokrągleń. Przedziały dalekie od 1,0 mają tendencję do problemów numerycznych.
  • jest czytelny dla człowieka i bardziej dostępny dla człowieka. Ludzie mają bardziej konkretne pojęcie o przedmiotach niż o miliardach.

Ponieważ jest znormalizowany:

  • porównania wyników są znaczące, 0,9 w jednym kraju oznacza ten sam poziom względnej nierównomierności jak 0,9 w innym kraju.
  • Jest on znormalizowany względem krzywej Lorenza w celu uzyskania doskonałej jednorodności, dlatego wartości są odpowiednimi wskaźnikami związku rozkładu interesujących wartości z krzywą Lorenza.

Bibliografia:

EngrStudent - Przywróć Monikę
źródło
4
Witamy na stronie, @EngrStudent. Czy mógłbyś powiedzieć coś więcej o współczynniku GINI i dlaczego jest to właściwa odpowiedź? Ponieważ jesteś tutaj nowy i zaczynasz coś pisać, możesz przeczytać nasze FAQ , które zawiera wiele informacji o stronie.
gung - Przywróć Monikę