Stworzyłem prosty dokument MS Word zawierający tylko to zdanie:
To jest mały dokument.
Nic więcej. Następnie zapisałem ten dokument jako DOCX i plik PDF. Oto rozmiary plików:
DOCX: 12 kB
PDF: 89 kB
Ta różnica jest ogromna technicznie i naprawdę zaczyna mnie niepokoić, gdy dokumenty tekstowe o wielkości kilkudziesięciu kB w DOCX zaczynają generować pliki PDF o wielkości setek kB . Co jest takiego nieefektywnego w formacie PDF? A może po prostu program Word używa jakiegoś okropnego algorytmu wyjściowego?
BTW, ustawienia wyjściowe PDF zostały ustawione, aby utworzyć najmniejszy możliwy plik:
microsoft-word
pdf
docx
Borek Bernard
źródło
źródło
Odpowiedzi:
Jeśli otworzysz plik PDF w notatniku ++, znajdziesz:
i do tego obiektu odwołuje się tutaj na końcu instrukcji / FontFile2:
Czcionki używane w dokumencie Word zostają osadzone w pliku PDF, dzięki czemu plik PDF jest samodzielny.
Użyłem tego zjeżdżalni do rozszyfrowania instrukcji PDF.
Jeśli chcesz zapobiec osadzaniu czcionek w pliku PDF, upewnij się, że dokument Word korzysta z jednego z 14 standardowych czcionek dostępnych w przeglądarkach PDF (źródłowa Wikipedia )
źródło
Zdarzyło mi się to wiele razy w programie Microsoft Word, gdy próbowałem wyeksportować prosty manuskrypt do pliku PDF. 5–8 stronicowy dokument Worda, o wielkości około 50 KB, skończy jako plik PDF o wielkości ponad 10 MB, który jest zdecydowanie za duży, aby przesłać komuś e-maila.
Odpowiedź Rene jest na dobrej drodze - problem polega na tym, że czcionki są osadzane w dokumencie - ale użycie jednego ze standardowych krojów niekoniecznie rozwiąże problem.
Wszystkie moje dokumenty były napisane w Times New Roman, przy użyciu bardziej wymyślnych niż pogrubienie i kursywa. A przynajmniej tak myślałem. Okazuje się, że w moim domyślnym szablonie mam włączone automatyczne kerning (z oczywistych powodów ). Podczas eksportowania do formatu PDF program Word osadzał każdą z tych ligatur jako osobny obiekt czcionki w dokumencie, nadmuchując go nie do uwierzenia.
Poprawka jest prosta, musisz tylko pamiętać, aby to zrobić za każdym razem:
Co ciekawe, możesz pozostawić włączone ligatury, alternatywy kontekstowe i inne zaawansowane funkcje typografii; nie mają one zauważalnego wpływu na rozmiar wynikowego pliku PDF.
Ponownie wyeksportuj dokument jako plik PDF, a jego rozmiar to około stu KB. Niestety, kerning jest mniej dokładny, więc nie zalecałbym drukowania w ten sposób, ale działa dobrze w przypadku wysyłania dokumentu pocztą e-mail.
źródło
Mniej techniczną odpowiedzią, która może pomóc, jest to, że pliki PDF wykorzystują wektory (tj. Równania matematyczne) do opisywania wszystkiego, co widzisz. Wszystkie krzywe i linie są zdefiniowane za pomocą równań matematycznych, a zatem koniecznie będzie wiele informacji do przechowywania, zwłaszcza gdy w dokumentach znajdują się obrazy.
Zaletą tego jest to, że możesz teoretycznie powiększać nieskończenie blisko bez utraty rozdzielczości lub szczegółów, ponieważ linie i krzywe nie mają szerokości, dzięki czemu można je skalować wraz z powiększeniem.
Podobnie jak ostatnia zmiana czcionki Google zmniejszyła rozmiar logo z ~ 14 KB do ~ 300B, prostsze czcionki prawdopodobnie pomogą zmniejszyć rozmiar pliku.
źródło