Czy istnieje oprogramowanie (lub pseudo-kod), które może automatycznie skanować fragment tekstu (wklejonego do narzędzia lub czytać z .doc / .pdf) i identyfikować dane cytowania przy użyciu standardowych formatów? Dane zostaną następnie podzielone na pola składowe i wyeksportowane w formacie XML, CSV lub innym formacie danych strukturalnych. Patrzyłem na cb2Bib, ale był on w stanie wydobyć rok tylko z odniesień w stylu Harvarda, co jest niewystarczające.
18
Odpowiedzi:
Spójrz na tę listę parserów cytowań, które mogą generować XML z tekstu wejściowego:
http://freecite.library.brown.edu
http://paracite.eprints.org
http://aye.comp.nus.edu.sg/parsCit (w trybie konserwacji od 1 sierpnia 2012 r.)
http: // opcit.eprints.org
http://search.cpan.org/~mjewell/Biblio-Citation-Parser-1.10
Za pomocą freecite możesz użyć
curl
polecenia, aby przesłać cytaty w następujący sposób (w PHP):źródło
W tej chwili (2017) najbardziej aktywnym projektem Open-Source, który to implementuje, jest Anyser Parser (ostatnia wersja 07-2016). Może być używany przez interfejs WWW, API lub pobrany jako RubyGem.
Wyraźnie wspominają na swojej stronie, że wdrożenie jest zainspirowane ParsCit (ostatnia wersja 2013?) I FreeCite (ostatnie zatwierdzenie 2009).
Również tworzą swoją stronę internetową:
To naprawdę fajna funkcja, która sprawia, że jest to najciekawsza implementacja (imho). Szkolenie wydaje się dość proste, jak wyjaśniono w dokumentacji API . Wystarczy podać kilka ręcznie poprawionych wyników i uruchomić
Anystyle.parser.train
polecenie. Nie jestem pewien, czy ParsCit i FreeCite również to obsługują, ale jeśli nie, wydaje mi się to ogromną różnicą funkcji.źródło
Wypróbuj narzędzie takie jak Regex Buddy lub Expresso .
Jeśli nie jesteś programistą, wyrażenia regularne mogą być nieco onieśmielające, ale tak naprawdę nie są takie trudne, szczególnie w przypadku przyzwoitego narzędzia, takiego jak jedno z powyższych.
Oto przykład osoby używającej wyrażeń regularnych do wyodrębniania cytatów:
Cytat analizuje wyrażenie regularne
źródło
Mendeley powinien być w stanie to zrobić. Może importować pliki PDF, a następnie eksportować metadane do BibTeX, RIS i EndNote XML. Jest do ściągnięcia za darmo i jest wieloplatformowy.
Edycja: Przetestowałem to na kilku dokumentach. Wygląda na to, że import PDF działa dobrze w przypadku poprawnie sformatowanych odniesień. W przypadku dokumentu utworzonego za pomocą LaTeX wszystkie odniesienia do autora w formie „Smith, J.” lub „J. Smith” itp. zostały zaimportowane w porządku. Jeśli autor jest firmą (jedno słowo) lub odniesienie jest niekompletne, to również nie działa. Wyodrębnione odniesienia można łatwo edytować i eksportować do BibTeX itp.
źródło
Widziałem, jak program Westlaw robi to w odniesieniu do legalnych cytatów, ale prawdopodobnie nie tego szukasz. Menedżer referencyjny może zrobić coś takiego w przypadku formatów akademickich, ale nigdy go nie użyłem.
źródło
Wypróbuj http://www.crossref.org/guestquery/#stqsearch
Ten jest w stanie automatycznie parsować tekst referencyjny i oferuje link do artykułu on-line.
źródło
Zotero to wtyczka do Firefoxa, która robi to dla treści internetowych. Nie jestem pewien, czy istnieje podobne narzędzie do dokumentów / pdf
źródło
Prawdopodobnie należy to bardziej do komentarza @Abhinav, ale zotero zdecydowanie obsługuje tylko ustrukturyzowane dane, jak opisano tutaj:
http://www.zotero.org/support/getting_stuff_into_your_library#importing_records_from_other_reference_tools
Interesującym hackem może być próba napisania programu, który używa każdego cytatu jako zapytania wyszukiwania w Twojej ulubionej bazie danych, a następnie używa czegoś takiego jak Zotero do generowania informacji o ref. Możesz także pobierać uporządkowane informacje z usług takich jak citeUlike. Daj mi znać, jeśli skończysz robić coś takiego! (jeśli to zrobisz, umieść to na github;).
źródło