Szukam biblioteki PDF, która pozwoli mi wyodrębnić tekst z dokumentu PDF. Spojrzałem na PyPDF i to może bardzo ładnie wyodrębnić tekst z dokumentu PDF. Problem polega na tym, że jeśli w dokumencie znajdują się tabele, tekst w tabelach jest wyodrębniany w jednej linii z pozostałą częścią tekstu dokumentu. Może to być problematyczne, ponieważ tworzy sekcje tekstu, które nie są użyteczne i wyglądają na zniekształcone (na przykład wiele liczb połączonych razem).
Chciałbym wyodrębnić tekst z dokumentu PDF bez jakichkolwiek tabel i specjalnego formatowania. Czy jest tam biblioteka, która to robi?
źródło
Jest to trudny problem do rozwiązania, ponieważ wizualnie podobne pliki PDF mogą mieć bardzo różną strukturę w zależności od tego, jak zostały utworzone. W najgorszym przypadku biblioteka musiałaby zasadniczo działać jak OCR. Z drugiej strony, plik PDF może zawierać wystarczającą strukturę i metadane do łatwego usuwania tabel i rysunków, do których wykorzystania można dostosować bibliotekę.
Jestem prawie pewien, że nie ma narzędzi typu open source, które rozwiązałyby twój problem dla szerokiej gamy plików PDF, ale pamiętam, że słyszałem o komercyjnym oprogramowaniu, które twierdziło, że robi dokładnie to, o co prosisz. Jestem pewien, że napotkasz je podczas wyszukiwania w Google.
źródło