Jak przekonwertować stronę internetową na plik PDF?

7

Istnieje wiele sposobów konwersji strony internetowej na format PDF (usługi online, bookmarklety, rozwiązania Print to PDF itp.).

Ale żaden z nich nie daje pliku PDF z możliwością przeszukiwania. Wygląda na to, że wszystkie konwertują HTML na jeden gigantyczny obraz. Czy istnieje możliwość przekonwertowania strony internetowej na plik PDF z możliwością wyszukiwania?

AngryHacker
źródło
Jeśli to rozwiązało twój problem, powinieneś opublikować odpowiedź na ten temat. Najlepiej z wszelkimi szczegółami, które mogą pomóc komuś, kto ma to samo pytanie w przyszłości. Po pewnym czasie będziesz w stanie zaakceptować odpowiedź, a następnie przyszli ludzie z tym problemem będą mieli ładne czyste pytania i odpowiedzi, które mogą znaleźć.
EBGreen
@EBGreen Masz rację. Gotowe.
AngryHacker

Odpowiedzi:

7

Znalazłem projekt wkhtmltopdf , który wydaje się załatwić sprawę . To linia poleceń, więc jest trochę krzywej uczenia się, ale nie jest tak źle.

Aby przekonwertować stronę internetową, otwórz okno poleceń w katalogu, w którym wkhtmltopdfzostał zainstalowany, i wykonaj następujące czynności:

wkhtmltopdf.exe http://www.yourpage.com/index.htm c:\misc\cnn.pdf

Aplikacja ma absurdalnie wiele opcji dostosowanych do potrzeb, ale ustawienia domyślne dają całkiem niezły wynik.

AngryHacker
źródło
co jeśli strona zawiera uwierzytelnione dane, takie jak myspace / facebook? to rozwiązanie nie zadziała
Bonus Kun
6

Program CutePDF korzysta z GhostScript do przetwarzania tekstu, a następnie ps2pdf do tworzenia przeszukiwalnych plików PDF stron internetowych. To oczywiście nie zadziała, jeśli tekst na stronie jest obrazem na początek.

atroon
źródło
Próbowałem - nie tworzy plików PDF z możliwością przeszukiwania
AngryHacker
Czy na pewno można przeszukiwać witrynę, a nie gigantyczny obraz lub flash? Zwykle otrzymuję pliki PDF z możliwością przeszukiwania za pomocą CutePDF ze stron internetowych.
anand.trex
@ trex279 Można go przeszukiwać, ale używają dużo semantyki HTML5, być może CutePDF i inne aplikacje nie są jeszcze na czasie. Wkhtmltopdf działa, ponieważ jest to wrapper wokół Khtml (aka WebKit), używany w Chrome i Safari, dzięki czemu lepiej jest w stanie powiedzieć, co jest.
AngryHacker
3

Jaki jest problem z rozwiązaniami Print to PDF? Mam dwa wirtualne drukarki zainstalowane w moim systemie: PDF Creator i Virtual Printer od Adobe Acrobat X. Oba działają dobrze. Mogę łatwo wyszukiwać tekst w wygenerowanych plikach PDF, o ile moja przeglądarka plików PDF ma funkcje OCR (co jest obecnie powszechne).
Jeśli myślisz o utworzeniu czegoś takiego jak dokument tekstowy i słowny, nie możesz tego zrobić. Ogranicza format PDF lub mówi, jak działa format PDF. Z tego powodu możemy osadzać czcionki itp. W tym formacie bez żadnej zależności, aby był uniwersalny.
I nie sądzę, że projekt wkhtmltopdf może wygenerować plik PDF, w którym można wyszukiwać tekst bez korzystania z technologii OCR (ponieważ narusza specyfikację PDF).

Apple II
źródło
1

Używam Adobe Acrobat 8 ​​Professional (aktualna wersja to Adobe Acrobat X ). Ma opcję menu, File... Create PDF... From Web Page...która prosi mnie o adres URL, a następnie pobiera stronę pod adresem URL jako plik PDF z tekstem do przeszukiwania. Przekształci również rekurencyjnie strony, do których prowadzą linki z tej strony. Można skończyć z wieloma stronami HTML w jednym wielostronicowym pliku PDF, z zachowanymi łączami między stronami.

W przypadku niektórych stron internetowych program Acrobat Create PDF źle formatuje. W takim przypadku wracam do Adobe PDF 8.0sterownika drukarki zainstalowanego w moim systemie Acrobat 8 ​​Professional. Bardzo dobrze daje mi PDF w postaci odpowiednika strony internetowej, na którą patrzę, z tekstem do przeszukiwania.

Adobe Acrobat 8 ​​Professional nie jest wolnym oprogramowaniem. Jest to oprogramowanie prawnie zastrzeżone. Jednak IMHO zasługuje na tyle samo miejsca na komputerze każdego pracownika wiedzy, co Microsoft Office. I nie określiłeś, że nalegałeś na darmowy program do konwersji strony internetowej na PDF z możliwością wyszukiwania.

Jim DeLaHunt
źródło
0

To całkiem dobre narzędzie, które konwertuje strony internetowe na pliki PDF z możliwością wyszukiwania: http://kitpdf.com/web_to_pdf/ . Spróbuj i sprawdź, czy spełnia twoje potrzeby.

Alexander B.
źródło
0

Właśnie wydrukowałem tę stronę w Google Chrome i zapisałem ją jako plik pdf. Nie mam problemów z używaniem wyszukiwania w drukowanym pliku pdf. Dane wyjściowe mogą się różnić w zależności od typu strony, jeśli strona zawiera ramki flash - najprawdopodobniej nie będzie można tam szukać treści.

Volodymyr M.
źródło
0

PrimoPDF! To jest darmowe. Działa idealnie i może zamienić wszystko, co można wydrukować, w plik PDF (z możliwością wyszukiwania). Działa, dodając się jako nowa drukarka. Łatwy również do odinstalowania.

Mam nadzieję że to pomoże.

Pomocna dłoń
źródło
PrimoPDF to najlepszy program do przekształcania stron internetowych w pliki PDF
HelpingHand
Istnieje również dodatek do Firefoksa, który zamienia go w obraz.
HelpingHand
Ten program może także pisać na utworzonym obrazie.
HelpingHand
I rozmyć niektóre sekcje.
HelpingHand
Nie mogę jednak znaleźć jego nazwy.
HelpingHand