Czy są jakieś interfejsy API do indeksowania streszczenia papieru?

13

Jeśli mam bardzo długą listę nazw artykułów, jak mogę uzyskać streszczenie tych artykułów z Internetu lub z dowolnej bazy danych?

Nazwy artykułów są jak „Ocena użyteczności w Web Mining dla domeny zdrowia publicznego”.

Czy ktoś zna API, które może dać mi rozwiązanie? Próbowałem zaindeksować Google Scholar, jednak Google zablokował mój robot.

Alex Gao
źródło
2
Wątpię, czy istnieje do tego jakiś ogólny interfejs API. Możesz spróbować zaindeksować różne usługi, takie jak Academia.edu, witryny wydawców i tak dalej. Niemniej jednak łatwiej byłoby najpierw zbudować lokalną bazę danych dokumentów, a następnie eksperymentować z wyodrębnianiem streszczeń.
Wojciech Walczak
Dzięki za odpowiedź! W tym celu zbudowałem już lokalną bazę danych. Problem z indeksowaniem z różnych usług polega na tym, że muszę tworzyć reguły analizy dla każdej witryny.
Alex Gao
A co powiesz na konwersję plików PDF na TXT, a następnie wyodrębnienie streszczeń za pomocą wyrażeń regularnych?
Wojciech Walczak
dzięki! Jednak umowa stanowi, że masowe pobieranie dokumentów jest niedozwolone. Powoduje to ból głowy.
Alex Gao
2
Myślę, że ten link odpowiedzi przepełnienia stosu daje najlepszą odpowiedź, jaką mogę uzyskać. Może ludzie, którzy napotkają ten problem, mogą również zajrzeć na tę stronę.
Alex Gao

Odpowiedzi:

8

Sprawdź to na:

Jeśli trafisz dokładnie jeden tytuł, prawdopodobnie znalazłeś odpowiedni artykuł i możesz tam wpisać resztę informacji. Oba dają linki do pobrania i wyjście w stylu bibtex. Aby uzyskać idealne metadane, prawdopodobnie należy pobrać i przeanalizować plik pdf (jeśli istnieje) i poszukać identyfikatora w stylu DOI.

Bądź miły i ogranicz swoje żądania, jeśli to zrobisz.

Alex I.
źródło
5

arXiv ma interfejs API i pobieranie zbiorcze, ale jeśli chcesz czegoś dla płatnych czasopism, trudno będzie go znaleźć bez płacenia indeksatorowi, jak pubmed, elsevier itp.

cwharland
źródło
1
wielkie dzięki. Jednak arXiv zapewnia dokumenty, których potrzebuję.
Alex Gao