Mam wrażenie, że większość tego, co się tutaj dzieje, jest niezwykle heurystyczna. W rzeczywistości większość ludzi wydaje się stosować to do <120 znaków twitterowych oświadczeń. Prawdopodobnie wyniki (choć nie są obliczane w ten sposób) nie są dużo lepsze niż liczenie „pozytywnych” i „negatywnych” słów z niewielką informacją o pozycji („A lepsze niż B” = pozytywne dla A, negatywne dla B)
Kiedy widzisz wtedy firmy, które kupują pełną transmisję na Twitterze (tyle ile Mb / s?) I twierdzą, że przeprowadzają analizę sentymentów na ten temat, poważnie zastanawiam się, czy jest tu jakaś ważność statystyczna . Nic dziwnego, że np. Yahoo nie udało się przewidzieć preelekcji w Południowej Karolinie: http://www.technologyreview.com/web/39487/
Ludzie są dumni i chętni do tego, aby w ogóle móc przetwarzać ilość danych, zupełnie zaniedbują prawidłowe sprawdzanie swojej wydajności.
Przepraszam, że pesymistycznie podchodzę do stanu techniki.
Ma ZAKOŃCZENIE - Anony-Mus
źródło