Niewiele rzeczy w życiu sprawia mi przyjemność, jak skrobanie uporządkowanych i nieustrukturyzowanych danych z Internetu i wykorzystywanie ich w moich modelach.
Na przykład zestaw narzędzi Data Science Toolkit (lub RDSTK
dla programistów R) pozwala mi wyciągać wiele dobrych danych opartych na lokalizacji za pomocą adresów IP lub adresów, a pakiet tm.webmining.plugin
for R tm
ułatwia natychmiastowe usuwanie danych finansowych i wiadomości. Kiedy wychodzę poza takie (częściowo) ustrukturyzowane dane, zwykle używam XPath
.
Jednak ciągle dławią mnie ograniczenia liczby zapytań, które możesz zadawać. Myślę, że Google ogranicza mnie do około 50 000 żądań na 24 godziny, co jest problemem dla Big Data.
Z technicznego punktu widzenia obejście tych limitów jest łatwe - wystarczy zmienić adresy IP i usunąć inne identyfikatory ze swojego środowiska. Jednak dotyczy to zarówno kwestii etycznych, jak i finansowych (tak myślę?).
Czy istnieje rozwiązanie, które przeoczam?
źródło