Chciałbym wyszukać tekst w pliku PDF. Na przykład, gdzie w moim pliku PDF jest słowo „przejdź do”? Jeśli ją znajdziesz, jaka jest tam strona?
Znajduję ten wiersz poleceń:
find /TEMP -name 'manu.pdf' -exec pdftotext {} - \; | grep "go to"
Wynikiem są niektóre elementy.
Chciałbym uzyskać numer strony mojego wyniku. Jak odzyskać ten przedmiot?
Jak domyślnie, pdftotext nie wstawia znaków stronicowania (0xC) między stronami. Możesz je policzyć do wyglądu szukanego słowa.
Innym sposobem jest użycie
bbox
opcji:Tutaj każde słowo jest zamknięte w
page
pojemniku. Możesz więc wziąć indeks + 1page
twojego słowa jako numer stronyźródło
Recoll może wyszukiwać dokumenty PDF. Ma tryb wiersza poleceń, ale GUI będzie bardziej pomocny w określaniu, gdzie występują dopasowania, i pozwoli ci kliknąć dokument w odpowiedniej pozycji.
źródło