Interfejs API wyszukiwarki Google został wycofany i zastąpiony niestandardowym interfejsem API wyszukiwania (patrz http://code.google.com/apis/websearch/ ).
Chciałem przeszukać całą sieć, ale wygląda na to, że dzięki nowemu interfejsowi API można wyszukiwać tylko niestandardowe witryny.
Czy istnieje sposób programowego przeszukiwania całej sieci? Udało mi się wysłać zapytanie do starego interfejsu API przy użyciu JSON z programu Java.
Odpowiedzi:
Możesz po prostu wysłać je tak, jak robi to przeglądarka, a następnie przeanalizować HTML - tak zawsze robiłem, nawet w przypadku serwisów takich jak Youtube.
źródło
Tak, Google Custom Search obecnie zastąpiła starą Search API, ale ty może nadal korzystać z wyszukiwarki niestandardowej Google, aby przeszukać cały internet , chociaż nie są oczywiste kroki od konfiguracji klienta Search.
Aby utworzyć wyszukiwarkę niestandardową Google, która przeszukuje całą sieć:
Teraz Twoja niestandardowa wyszukiwarka przeszuka całą sieć.
cennik
Źródło: https://developers.google.com/custom-search/json-api/v1/overview#Pricing
źródło
Wyszukiwarka niestandardowa Google (zalecana w najwyżej ocenianych odpowiedziach) działa dobrze, ale jest bardzo droga w porównaniu do konkurencji (poniżej) lub w porównaniu z innymi interfejsami API Google. Ma małą bezpłatną warstwę (100 zapytań dziennie) i bardzo wysoką cenę 5 USD za 1000 zapytań.
Oferują one opcję uaktualnienia do wyszukiwania w witrynie, który ma nieco lepsze ceny, ale jest przeznaczony do przeszukiwania jednej witryny (własnej), więc jest to naprawdę coś zupełnie innego - nie aktualizacja.
Głównymi alternatywami wydają się:
Interfejs API Bing Search
https://datamarket.azure.com/dataset/5BA839F1-12CE-4CCE-BF57-A49D98D29A44
Który ma bezpłatny poziom 5000q / miesiąc, a ceny zaczynają się od 5 zapytań za grosz i nie ma sztywnego limitu.
AKTUALIZACJA: Pod koniec 2016 r. Ten interfejs API został zamknięty na korzyść platformy Azure „Cognitive Services Bing Search API”:
https://azure.microsoft.com/en-us/services/cognitive-services/search/
Zobacz tutaj tabelę cen, która zaczyna się od 3 USD / m za 1000 transakcji. Chyba że coś mi umknie, jest to dość drogie.
AKTUALIZACJA Yahoo BOSS Search API : Została wycofana 31 marca 2016 r. Http://developer.yahoo.com/boss/search/
Ceny zaczynają się od około 12 zapytań / pensa za wyszukiwanie w całej sieci.
A niektóre o których wcześniej nie słyszałem:
http://www.gigablast.com/searchfeed.html
http://www.faroo.com/hp/api/api.html
http://www.commoncrawl.org/
http://www.entireweb.com/search_api/implementation/
[wycofany - jak wskazano poniżej]
Trochę dyskusji na temat niektórych z nich znajduje się w tym poście SO .
[został zamknięty za bycie poza tematem i teraz go nie ma]
źródło
Oto opcja na dole panelu sterowania wyszukiwania niestandardowego: „Witryny do przeszukania” , możesz wybrać „Przeszukaj całą sieć, ale zaznaczaj uwzględnione witryny”
źródło
Faroo ma bezpłatny interfejs API wyszukiwania w Internecie
źródło
Właśnie natknąłem się na to z Common Crawl.
http://www.commoncrawl.org/
To może być odpowiedź, której wszyscy szukamy !!
źródło
Jest to uwaga na szczycie docs :
Polityka deprecation mówi, że będą one nadal działać API do 3 lat. Więc jeśli masz już aplikację, która korzysta ze starego interfejsu API, nie musisz się spieszyć, aby jeszcze coś zmienić. Jeśli piszesz nową aplikację, użyj niestandardowego interfejsu API wyszukiwania . Zobacz moją odpowiedź tutaj, jak to zrobić w Pythonie, ale pomysł jest taki sam dla każdego języka.
źródło
Istnieje bezpłatny interfejs Java API o nazwie JFreeWebSearch, który wykorzystuje wspomniany już Faroo: http://www.ke.tu-darmstadt.de/resources/jfreewebsearch
źródło
Możesz utworzyć niestandardową wyszukiwarkę „wszędzie” bezpośrednio ze strony głównej Google Custom Search ( http://www.google.com/cse/ ). Po prostu kliknij „zaawansowane” podczas dodawania nowego silnika. Tam możesz podać typ strony Schema.org. „ Rzecz ” jest najbardziej ogólnym rodzajem, który obejmuje całą sieć.
źródło
Gigablast oferuje tani interfejs API do wyszukiwania w Internecie: http://www.gigablast.com/searchfeed.html
źródło