Jak przekonwertować stronę do formatu PDF z zachowaniem jej wyglądu (dokładnie tak, jak w przeglądarce internetowej) i tekstu / linków?

18

Szukam sposobu na konwersję strony do formatu PDF, ale zachowując wygląd strony. Zachowanie tekstu strony internetowej (do wyboru), możliwość przeszukiwania [Generowanie zrzutu obrazu strony internetowej uniemożliwiłoby wybranie tekstu lub przeszukiwanie].

Szukam drukowania strony internetowej w formacie PDF, tak jak jest w przeglądarce internetowej, bez manipulacji stylem lub wyrównaniem, ani utraty statycznych komponentów strony.

Pomogłoby to zachować kopie stron internetowych w trybie offline, które są łatwe do odczytania, opisywania i przeszukiwania.


Nie musisz czytać żadnego z poniższych (pytanie to tylko powyższa sekcja) aby uzyskać moje pytanie. Poniższa sekcja zawiera listę tego, co udało mi się uzyskać dzięki badaniom lub odpowiedziom innych osób w sposób zagnieżdżony, aby uzyskać odpowiedź na pytanie.

Wyniki badań (sugestie, które nie rozwiązały mojego problemu)

Dotychczasowe wyniki prób znalezienia rozwiązania (wszystkie nadal nie działają jako rozwiązanie tego pytania)

Wypróbowałem te mechanizmy drukowania stron internetowych w formacie PDF, ale wszystkie manipulują wyglądem stron, nawet bardziej szkodliwie i sprawiają, że niektóre z nich są mało czytelne: Przykładowa strona zrzuty ekranu są zawarte w nawiasach kwadratowych)

Wszystkie wtyczki do przechwytywania obrazu strony internetowej (np. Uprowadzenie , Niesamowity zrzut ekranu , Fireshot , Firefox Screenshot Developer Tool , Pełny zrzut ekranu , Page2Obrazy , przechwytywanie stron internetowych , ...) nie odpowiadaj na moje pytanie, bo tak nie jest zachowaj tekst i linki .

Scrible jest świetny w zachowaniu stron internetowych, tak jak w przypadku dalszych adnotacji i badań, ale niestety nadal w trybie online i bez konwersji do formatu PDF.

Istnieją dwa inne pytania dotyczące społeczności podobne do moich, ale to jest trochę inne, ale z tymi ważnymi różnicami

Więcej podobnych pytań gdzie zachowanie tekstu i linków nie jest wymagane (strony są przechwytywane jako zrzuty obrazu przeważnie):


Uwagi

OS: Windows 10

Omar
źródło
Jeśli chcesz drukować z przeglądarki, musisz najpierw wyłączyć wszystkie arkusze stylów drukowania, aby zachować wygląd ekranu strony.
DavidPostill
Widzieć Jak uzyskać WYSIWYP (wydrukuj to, co widzisz) w przeglądarce internetowej? . Zobacz moją odpowiedź na to pytanie.
DavidPostill
Następnie możesz drukować za pomocą Pisarz CutePDF .
DavidPostill
@DavidPostill Wydaje się, że wyłączenie stylów drukowania albo nie działa, albo nie ma wpływu na wyświetlanie pliku PDF w przeglądarce. Przykładowe zrzuty ekranu zostały dodane do edytowanej wersji pytania.
Omar
Miałem to samo pytanie dzisiaj i ta strona pomogła mi (chociaż wynik był mobilną wersją strony): stackoverflow.com/questions/9540990/…
MicroMachine

Odpowiedzi:

4

W projekcie uniwersyteckim napotkaliśmy ten sam problem i byliśmy w stanie go rozwiązać

wkhtmltopdf

Całkiem podobały nam się możliwości tego narzędzia w linii poleceń. Nazwaliśmy to również za pomocą kodu Pythona, aby zrenderować bieżący stan stron internetowych. Ma możliwość dostarczenia strony internetowej w formacie pdf, zwykle nie jest to idealne rozwiązanie, aby zachować widok strony ze względu na formatowanie strony (na przykład A4) lub png (zachowuje widok strony, ale nie linki)

Stosujemy również projekt czytelności (dla Pythona: pypi.python.org/pypi/readability-lxml), który całkiem dobrze usuwa reklamy i ich wykrywanie (np. Artykuły prasowe i tym podobne). Jeśli chcesz tylko dodatek lub rozszerzenie dla swojej przeglądarki, poniższa implementacja czytelności może zaspokoić twoją potrzebę:

https://www.readability.com/addons/

SSchneid
źródło
Niestety wkhtmltopdf nie zachował pozycji elementów strony. Przykładowa strona : Współczynnik powiększenia: 0,4: Zrzuty ekranu , Wydany PDF
Omar
Czytelność upraszcza stronę (co jest dobrą rzeczą - nie jest to jednak to, czego szukam). Muszę zachować wszystkie właściwości pozycji / stylów strony, jak widać w przeglądarce internetowej w formacie PDF, bez żadnych manipulacji.
Omar
Czy skorzystałeś z opcji wkhtmltopng narzędzia, ponieważ png pozycje powinny być w porządku (przynajmniej znacznie lepiej niż w wersji pdf, gdzie strona jest dopasowana do formatu A4)
SSchneid
1

Jeśli używasz Linuksa, wypróbuj to małe narzędzie wiersza poleceń CutyCapt , która zależy tylko od Qt i QtWebkit oraz eksportuje do PDF.

Ziggy Crueltyfree Zeitgeister
źródło
1

Miałem ten sam problem i zrozumiałem go za pomocą Chrome i sterownika drukarki o nazwie PDF995, który pobrałem bezpiecznie i za darmo (jednym linkiem do pobrania jest https://pdf995.en.softonic.com/ inny jest http://downloads.tomsguide.com/pdf995,0301-829.html ).

Myślę jednak, że wystarczy każda przeglądarka internetowa i dowolny konwerter plików PDF. W każdym razie oto co zrobiłem:

  1. wybierz wszystko lub zaznacz wszystko.
  2. Kliknij prawym przyciskiem myszy zaznaczony wybór lub naciśnij Ctrl + P (obie opcje dają nieco inne wyniki, ale po zakończeniu uzyskasz taki sam wynik).

  3. Jeśli klikniesz prawym przyciskiem myszy na 2., zaznaczenie (skrót), kliknij „drukuj” i tylko wszystkie wybrane elementy będą widoczne na podglądzie wydruku. Upewnij się, że zmieniłeś miejsce docelowe drukarki na dowolny konwerter PDF, którego zdecydujesz się użyć (PDF995 lub inny).

  4. Kliknij „drukuj” i zapisze się jako dokument pdf.

  5. Jeśli naciśniesz Ctrl + P w 2. (nieco dłuższy sposób), kliknij „Więcej ustawień” i przewiń w dół do „Opcje”.

  6. Kliknij pole „Tylko wybór”, a wszystko, co opisałem w skrócie, nastąpi.

  7. Nie zapomnij zmienić miejsca docelowego drukarki na dowolny konwerter PDF (PDF995 lub inny).

  8. Kliknij „drukuj”.

user726167
źródło
0

Chociaż nie jest to dokładnie twoja prośba, ale nie w formacie PDF, jeśli celem jest wyłącznie przechowywanie kopii stron internetowych w trybie offline w celu późniejszego przejrzenia, zapisanie ich jako strony internetowej właśnie to zrobiłoby.

Wielkie zastrzeżenie polega na tym, że utworzy plik .html i folder zawierający całą zawartość multimedialną na stronie, a nie pojedynczy dokument.

W Chrome i Firefox możesz zapisać stronę, klikając ją prawym przyciskiem myszy i wybierając Zapisz jako ... W Internet Explorerze możesz zapisać go w Plik - & gt; Zapisz jako (naciśnięcie klawisza Alt powoduje wyświetlenie menu).

Pyheme
źródło
Zapisanie strony internetowej w formacie .html uniemożliwiłoby jej opis Potrzebuję tego w formacie PDF.
Omar
Trafne spostrzeżenie! Właśnie zapamiętałem rozszerzenie, które pozwala łatwo wyłączyć arkusze stylów związane z drukowaniem. Szybkie wyszukiwanie google doprowadziło mnie do dyskusji, kiedy po raz pierwszy o tym usłyszałem, na Superuser: Jak uzyskać WYSIWYP (wydrukuj to, co widzisz) w przeglądarce internetowej?
Pyheme
Próbowałem zrobić „Zapisz jako” za pomocą Chrome. Tworzy plik .HTML i folder. W pliku .HTLM brakowało wielu rzeczy ze strony.
SherlockSpreadsheets
0

Wypróbuj tę usługę. Tworzy plik PDF ze strony internetowej, tak jak widzisz go w przeglądarce. https://lomotoh.com/ (Jestem związany z tą stroną)

David Herse
źródło
Zachowuje to linki, ale nie można wybrać tekstu, co jest wymagane w pytaniu.
fixer1234
Wydaje się, że można go wybrać dla niektórych witryn. Myślę, że to zależy od rodzaju niestandardowej czcionki używanej przez witrynę.
David Herse
0

Co najmniej cały tekst na niektórych stronach można przeszukiwać, wybierać, wycinać i wklejać. Próbowałem na stronie wklejonej automatycznie przez komputer z tekstem i pikselami, a to wszystko nastroiło na obraz.

Używam tych rzeczy od lat. Najlepsze wyniki osiągam w Linuksie, przebudowując stronę w wybranym przez Ciebie słowie XX i eksportując wynik w formacie PDF. Mogę uzyskać to, czego chcę, za znaczną cenę. Z mojego ograniczonego użytku łuk ivin Witryna David Herse rozstawiona https://lomotoh.com/ (Jestem NIE związany z tą stroną) działa tak dobrze jak każdy, z którego kiedykolwiek korzystałem. Będę chodził do zasobów, aby pokryć strony internetowe do plików PDF, dopóki nie znajdę lepszego lub nie będzie to kosztowało zbyt wiele, aby zapłacić z własnej cienkiej portmonetki.

Gordon Couger
źródło