Grep w Microsoft Word?
Chciałbym wyciągnąć wszystkie wiersze z danego ciągu z dokumentu tekstowego. W świecie unix ... grep robi to bez problemu. Windows jest dla mnie mniej niż oczywisty.
microsoft-word
grep
fretje
źródło
źródło
catdoc
segfaults na każdym.doc
/.docx
pliku, który mu podam, iantiword
po prostu mówi mi, że mój dokument „nie jest dokumentem Word”. Czy znasz jakieś inne opcje?docx2txt
istnieje w repozytoriach Debiana - może działać. Zajrzałbym również do narzędzia do konwersji formatu wiersza poleceń OpenOffice / LibreOffice (unoconv), które można by wykorzystać w tym samym celu.Wiem, że to brzmi prymitywnie, ale co powstrzymuje cię przed zapisaniem pliku jako .txt, a następnie rozerwaniem go na części według własnych upodobań.
źródło
Co oznacza „linia” w kontekście programu Word? Wyświetlany wiersz, który zmienia się, jeśli robisz coś z formatowaniem strony? Akapit? Coś innego?
Za pomocą funkcji znajdowania i zamieniania programu Word można wykonywać wiele czynności, w tym zmieniać formatowanie i inne nieoczywiste rzeczy, ale wszystkie z nich będą działać tylko na samym tekście find-what, a nie na otaczającym tekście.
źródło
Istnieje obsługa dokumentów MS - Word, PowerPoint, Excel - w CRGREP, który opracowałem jako bezpłatne narzędzie typu open source. Pomaga także w wyszukiwaniu innych trudnych rzeczy, takich jak tabele bazy danych, obrazy, audio, archiwa, pliki PDF i ich kombinacje. Baw się dobrze.
źródło
PowerGREP zrobi to za Ciebie i szybko - ale nie za darmo. Moim zdaniem jest to warte każdego grosza. Ponadto istnieje 30-dniowy bezpłatny okres próbny.
źródło
Nie mam wystarczającej liczby przedstawicieli do skomentowania, ale widzę, że omawiany jest problem doc vs docx, więc każdy, kto goni za wątkiem (tak jak ja), może uznać to za pomocne.
Nie potrzebujesz specjalnego narzędzia do plików docx. docx to spakowane pliki XML.
Aby wyodrębnić i usunąć XML, wypróbuj coś opartego na
z linii poleceń fu
źródło
Szybkie, bezpłatne, otwarte i wieloplatformowe rozwiązanie: https://github.com/phiresky/ripgrep-all
źródło