Czytanie dokumentów PDF w .Net [zamknięte]

Question 1

Czy istnieje biblioteka open source, która pomoże mi w czytaniu / analizowaniu dokumentów PDF w .Net / C #?

Question 2

Ponieważ ostatnia odpowiedź na to pytanie została udzielona w 2008 r., ITextSharp znacznie poprawił ich interfejs API. Jeśli pobierzesz najnowszą wersję ich interfejsu API z http://sourceforge.net/projects/itextsharp/ , możesz użyć następującego fragmentu kodu, aby wyodrębnić cały tekst z pliku PDF do ciągu.

using iTextSharp.text.pdf;
using iTextSharp.text.pdf.parser;

namespace PdfParser
{
    public static class PdfTextExtractor
    {
        public static string pdfText(string path)
        {
            PdfReader reader = new PdfReader(path);
            string text = string.Empty;
            for(int page = 1; page <= reader.NumberOfPages; page++)
            {
                text += PdfTextExtractor.GetTextFromPage(reader,page);
            }
            reader.Close();
            return text;
        }   
    }
}

Question 3

iTextSharp to najlepszy wybór. Użyto go do stworzenia pająka dla lucene.Net, aby mógł indeksować pliki PDF.

using System;
using System.IO;
using iTextSharp.text.pdf;
using System.Text.RegularExpressions;

namespace Spider.Utils
{
    /// <summary>
    /// Parses a PDF file and extracts the text from it.
    /// </summary>
    public class PDFParser
    {
        /// BT = Beginning of a text object operator 
        /// ET = End of a text object operator
        /// Td move to the start of next line
        ///  5 Ts = superscript
        /// -5 Ts = subscript

        #region Fields

        #region _numberOfCharsToKeep
        /// <summary>
        /// The number of characters to keep, when extracting text.
        /// </summary>
        private static int _numberOfCharsToKeep = 15;
        #endregion

        #endregion

        #region ExtractText
        /// <summary>
        /// Extracts a text from a PDF file.
        /// </summary>
        /// <param name="inFileName">the full path to the pdf file.</param>
        /// <param name="outFileName">the output file name.</param>
        /// <returns>the extracted text</returns>
        public bool ExtractText(string inFileName, string outFileName)
        {
            StreamWriter outFile = null;
            try
            {
                // Create a reader for the given PDF file
                PdfReader reader = new PdfReader(inFileName);
                //outFile = File.CreateText(outFileName);
                outFile = new StreamWriter(outFileName, false, System.Text.Encoding.UTF8);

                Console.Write("Processing: ");

                int totalLen = 68;
                float charUnit = ((float)totalLen) / (float)reader.NumberOfPages;
                int totalWritten = 0;
                float curUnit = 0;

                for (int page = 1; page <= reader.NumberOfPages; page++)
                {
                    outFile.Write(ExtractTextFromPDFBytes(reader.GetPageContent(page)) + " ");

                    // Write the progress.
                    if (charUnit >= 1.0f)
                    {
                        for (int i = 0; i < (int)charUnit; i++)
                        {
                            Console.Write("#");
                            totalWritten++;
                        }
                    }
                    else
                    {
                        curUnit += charUnit;
                        if (curUnit >= 1.0f)
                        {
                            for (int i = 0; i < (int)curUnit; i++)
                            {
                                Console.Write("#");
                                totalWritten++;
                            }
                            curUnit = 0;
                        }

                    }
                }

                if (totalWritten < totalLen)
                {
                    for (int i = 0; i < (totalLen - totalWritten); i++)
                    {
                        Console.Write("#");
                    }
                }
                return true;
            }
            catch
            {
                return false;
            }
            finally
            {
                if (outFile != null) outFile.Close();
            }
        }
        #endregion

        #region ExtractTextFromPDFBytes
        /// <summary>
        /// This method processes an uncompressed Adobe (text) object 
        /// and extracts text.
        /// </summary>
        /// <param name="input">uncompressed</param>
        /// <returns></returns>
        public string ExtractTextFromPDFBytes(byte[] input)
        {
            if (input == null || input.Length == 0) return "";

            try
            {
                string resultString = "";

                // Flag showing if we are we currently inside a text object
                bool inTextObject = false;

                // Flag showing if the next character is literal 
                // e.g. '\\' to get a '\' character or '\(' to get '('
                bool nextLiteral = false;

                // () Bracket nesting level. Text appears inside ()
                int bracketDepth = 0;

                // Keep previous chars to get extract numbers etc.:
                char[] previousCharacters = new char[_numberOfCharsToKeep];
                for (int j = 0; j < _numberOfCharsToKeep; j++) previousCharacters[j] = ' ';


                for (int i = 0; i < input.Length; i++)
                {
                    char c = (char)input[i];
                    if (input[i] == 213)
                        c = "'".ToCharArray()[0];

                    if (inTextObject)
                    {
                        // Position the text
                        if (bracketDepth == 0)
                        {
                            if (CheckToken(new string[] { "TD", "Td" }, previousCharacters))
                            {
                                resultString += "\n\r";
                            }
                            else
                            {
                                if (CheckToken(new string[] { "'", "T*", "\"" }, previousCharacters))
                                {
                                    resultString += "\n";
                                }
                                else
                                {
                                    if (CheckToken(new string[] { "Tj" }, previousCharacters))
                                    {
                                        resultString += " ";
                                    }
                                }
                            }
                        }

                        // End of a text object, also go to a new line.
                        if (bracketDepth == 0 &&
                            CheckToken(new string[] { "ET" }, previousCharacters))
                        {

                            inTextObject = false;
                            resultString += " ";
                        }
                        else
                        {
                            // Start outputting text
                            if ((c == '(') && (bracketDepth == 0) && (!nextLiteral))
                            {
                                bracketDepth = 1;
                            }
                            else
                            {
                                // Stop outputting text
                                if ((c == ')') && (bracketDepth == 1) && (!nextLiteral))
                                {
                                    bracketDepth = 0;
                                }
                                else
                                {
                                    // Just a normal text character:
                                    if (bracketDepth == 1)
                                    {
                                        // Only print out next character no matter what. 
                                        // Do not interpret.
                                        if (c == '\\' && !nextLiteral)
                                        {
                                            resultString += c.ToString();
                                            nextLiteral = true;
                                        }
                                        else
                                        {
                                            if (((c >= ' ') && (c <= '~')) ||
                                                ((c >= 128) && (c < 255)))
                                            {
                                                resultString += c.ToString();
                                            }

                                            nextLiteral = false;
                                        }
                                    }
                                }
                            }
                        }
                    }

                    // Store the recent characters for 
                    // when we have to go back for a checking
                    for (int j = 0; j < _numberOfCharsToKeep - 1; j++)
                    {
                        previousCharacters[j] = previousCharacters[j + 1];
                    }
                    previousCharacters[_numberOfCharsToKeep - 1] = c;

                    // Start of a text object
                    if (!inTextObject && CheckToken(new string[] { "BT" }, previousCharacters))
                    {
                        inTextObject = true;
                    }
                }

                return CleanupContent(resultString);
            }
            catch
            {
                return "";
            }
        }

        private string CleanupContent(string text)
        {
            string[] patterns = { @"\\\(", @"\\\)", @"\\226", @"\\222", @"\\223", @"\\224", @"\\340", @"\\342", @"\\344", @"\\300", @"\\302", @"\\304", @"\\351", @"\\350", @"\\352", @"\\353", @"\\311", @"\\310", @"\\312", @"\\313", @"\\362", @"\\364", @"\\366", @"\\322", @"\\324", @"\\326", @"\\354", @"\\356", @"\\357", @"\\314", @"\\316", @"\\317", @"\\347", @"\\307", @"\\371", @"\\373", @"\\374", @"\\331", @"\\333", @"\\334", @"\\256", @"\\231", @"\\253", @"\\273", @"\\251", @"\\221"};
            string[] replace = {   "(",     ")",      "-",     "'",      "\"",      "\"",    "à",      "â",      "ä",      "À",      "Â",      "Ä",      "é",      "è",      "ê",      "ë",      "É",      "È",      "Ê",      "Ë",      "ò",      "ô",      "ö",      "Ò",      "Ô",      "Ö",      "ì",      "î",      "ï",      "Ì",      "Î",      "Ï",      "ç",      "Ç",      "ù",      "û",      "ü",      "Ù",      "Û",      "Ü",      "®",      "™",      "«",      "»",      "©",      "'" };

            for (int i = 0; i < patterns.Length; i++)
            {
                string regExPattern = patterns[i];
                Regex regex = new Regex(regExPattern, RegexOptions.IgnoreCase);
                text = regex.Replace(text, replace[i]);
            }

            return text;
        }

        #endregion

        #region CheckToken
        /// <summary>
        /// Check if a certain 2 character token just came along (e.g. BT)
        /// </summary>
        /// <param name="tokens">the searched token</param>
        /// <param name="recent">the recent character array</param>
        /// <returns></returns>
        private bool CheckToken(string[] tokens, char[] recent)
        {
            foreach (string token in tokens)
            {
                if ((recent[_numberOfCharsToKeep - 3] == token[0]) &&
                    (recent[_numberOfCharsToKeep - 2] == token[1]) &&
                    ((recent[_numberOfCharsToKeep - 1] == ' ') ||
                    (recent[_numberOfCharsToKeep - 1] == 0x0d) ||
                    (recent[_numberOfCharsToKeep - 1] == 0x0a)) &&
                    ((recent[_numberOfCharsToKeep - 4] == ' ') ||
                    (recent[_numberOfCharsToKeep - 4] == 0x0d) ||
                    (recent[_numberOfCharsToKeep - 4] == 0x0a))
                    )
                {
                    return true;
                }
            }
            return false;
        }
        #endregion
    }
}

Question 4

public string ReadPdfFile(object Filename, DataTable ReadLibray)
{
    PdfReader reader2 = new PdfReader((string)Filename);
    string strText = string.Empty;

    for (int page = 1; page <= reader2.NumberOfPages; page++)
    {
    ITextExtractionStrategy its = new iTextSharp.text.pdf.parser.SimpleTextExtractionStrategy();
    PdfReader reader = new PdfReader((string)Filename);
    String s = PdfTextExtractor.GetTextFromPage(reader, page, its);

    s = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.Default, Encoding.UTF8, Encoding.Default.GetBytes(s)));
    strText = strText + s;
    reader.Close();
    }
    return strText;
}

Question 5

PDFClown może pomóc, ale nie polecam go do dużych lub intensywnie używanych aplikacji.

Question 6

iText to najlepsza biblioteka, jaką znam. Pierwotnie napisany w Javie, istnieje również port .NET.

Zobacz http://www.ujihara.jp/iTextdotNET/en/

Question 7

Możesz zajrzeć do tego: http://www.codeproject.com/KB/showcase/pdfrasterizer.aspx To nie jest całkowicie darmowe, ale wygląda bardzo ładnie.

Alex

Question 8

http://www.c-sharpcorner.com/UploadFile/psingh/PDFFileGenerator12062005235236PM/PDFFileGenerator.aspx jest oprogramowaniem typu open source i może być dla Ciebie dobrym punktem wyjścia.

Question 9

aspose pdf działa całkiem nieźle. potem znowu musisz za to zapłacić

Question 10

itext?

http://www.itextpdf.com/terms-of-use/index.php

Przewodnik

http://www.vogella.com/articles/JavaPDF/article.html

Question 11

Jest też LibHaru

http://libharu.org/wiki/Main_Page

Question 12

Zajrzyj do biblioteki Docotic.Pdf . Nie wymaga otwierania kodu źródłowego aplikacji (na przykład iTextSharp z wirusową licencją AGPL 3).

Docotic.Pdf może służyć do czytania plików PDF i wyodrębniania tekstu z formatowaniem lub bez. Zapoznaj się z artykułem, w którym pokazano, jak wyodrębnić tekst z plików PDF .

Zastrzeżenie: pracuję dla Bit Miracle, dostawcy biblioteki.

Answer 1 · 2012-10-06 22: 16: 56Z

Czy istnieje biblioteka open source, która pomoże mi w czytaniu / analizowaniu dokumentów PDF w .Net / C #?

Answer 2

1

Odpowiedź udzielona przez Brocka Nussera wygląda na najbardziej aktualne rozwiązanie i należy ją uznać za właściwą odpowiedź na to pytanie

ceetheman

Answer 3

Więcej zaktualizowanych odpowiedzi iTextSharp tutaj, ponieważ to pytanie zostało zamknięte.

VDWWD

Answer 4

119

Ponieważ ostatnia odpowiedź na to pytanie została udzielona w 2008 r., ITextSharp znacznie poprawił ich interfejs API. Jeśli pobierzesz najnowszą wersję ich interfejsu API z http://sourceforge.net/projects/itextsharp/ , możesz użyć następującego fragmentu kodu, aby wyodrębnić cały tekst z pliku PDF do ciągu.

using iTextSharp.text.pdf;
using iTextSharp.text.pdf.parser;

namespace PdfParser
{
    public static class PdfTextExtractor
    {
        public static string pdfText(string path)
        {
            PdfReader reader = new PdfReader(path);
            string text = string.Empty;
            for(int page = 1; page <= reader.NumberOfPages; page++)
            {
                text += PdfTextExtractor.GetTextFromPage(reader,page);
            }
            reader.Close();
            return text;
        }   
    }
}

Brock Nusser
źródło

17

Prawdopodobnie nie powinieneś dzwonić do swojej klasy, PdfTextExtractorponieważ będzie to kolidować z tym wiTextSharp.text.pdf.parser

Neil

2

iTextSharp przeniósł się do GitHub: github.com/itext/itextsharp

Amedee Van Gasse

1

może ci, którzy tu odpowiedzieli, mogliby tu pomóc ?

Veverke

6

Jest teraz opłacany za projekty komercyjne.

Nikolay Kostov

1

@iTextSharp został wycofany i zastąpiony przez iText 7 github.com/itext/itext7-dotnet .

Matthew

Answer 5

17

Prawdopodobnie nie powinieneś dzwonić do swojej klasy, PdfTextExtractorponieważ będzie to kolidować z tym wiTextSharp.text.pdf.parser

Neil

Answer 6

2

iTextSharp przeniósł się do GitHub: github.com/itext/itextsharp

Amedee Van Gasse

Answer 7

1

może ci, którzy tu odpowiedzieli, mogliby tu pomóc ?

Veverke

Answer 8

6

Jest teraz opłacany za projekty komercyjne.

Nikolay Kostov

Answer 9

1

@iTextSharp został wycofany i zastąpiony przez iText 7 github.com/itext/itext7-dotnet .

Matthew

Answer 10

iTextSharp to najlepszy wybór. Użyto go do stworzenia pająka dla lucene.Net, aby mógł indeksować pliki PDF.

using System;
using System.IO;
using iTextSharp.text.pdf;
using System.Text.RegularExpressions;

namespace Spider.Utils
{
    /// <summary>
    /// Parses a PDF file and extracts the text from it.
    /// </summary>
    public class PDFParser
    {
        /// BT = Beginning of a text object operator 
        /// ET = End of a text object operator
        /// Td move to the start of next line
        ///  5 Ts = superscript
        /// -5 Ts = subscript

        #region Fields

        #region _numberOfCharsToKeep
        /// <summary>
        /// The number of characters to keep, when extracting text.
        /// </summary>
        private static int _numberOfCharsToKeep = 15;
        #endregion

        #endregion

        #region ExtractText
        /// <summary>
        /// Extracts a text from a PDF file.
        /// </summary>
        /// <param name="inFileName">the full path to the pdf file.</param>
        /// <param name="outFileName">the output file name.</param>
        /// <returns>the extracted text</returns>
        public bool ExtractText(string inFileName, string outFileName)
        {
            StreamWriter outFile = null;
            try
            {
                // Create a reader for the given PDF file
                PdfReader reader = new PdfReader(inFileName);
                //outFile = File.CreateText(outFileName);
                outFile = new StreamWriter(outFileName, false, System.Text.Encoding.UTF8);

                Console.Write("Processing: ");

                int totalLen = 68;
                float charUnit = ((float)totalLen) / (float)reader.NumberOfPages;
                int totalWritten = 0;
                float curUnit = 0;

                for (int page = 1; page <= reader.NumberOfPages; page++)
                {
                    outFile.Write(ExtractTextFromPDFBytes(reader.GetPageContent(page)) + " ");

                    // Write the progress.
                    if (charUnit >= 1.0f)
                    {
                        for (int i = 0; i < (int)charUnit; i++)
                        {
                            Console.Write("#");
                            totalWritten++;
                        }
                    }
                    else
                    {
                        curUnit += charUnit;
                        if (curUnit >= 1.0f)
                        {
                            for (int i = 0; i < (int)curUnit; i++)
                            {
                                Console.Write("#");
                                totalWritten++;
                            }
                            curUnit = 0;
                        }

                    }
                }

                if (totalWritten < totalLen)
                {
                    for (int i = 0; i < (totalLen - totalWritten); i++)
                    {
                        Console.Write("#");
                    }
                }
                return true;
            }
            catch
            {
                return false;
            }
            finally
            {
                if (outFile != null) outFile.Close();
            }
        }
        #endregion

        #region ExtractTextFromPDFBytes
        /// <summary>
        /// This method processes an uncompressed Adobe (text) object 
        /// and extracts text.
        /// </summary>
        /// <param name="input">uncompressed</param>
        /// <returns></returns>
        public string ExtractTextFromPDFBytes(byte[] input)
        {
            if (input == null || input.Length == 0) return "";

            try
            {
                string resultString = "";

                // Flag showing if we are we currently inside a text object
                bool inTextObject = false;

                // Flag showing if the next character is literal 
                // e.g. '\\' to get a '\' character or '\(' to get '('
                bool nextLiteral = false;

                // () Bracket nesting level. Text appears inside ()
                int bracketDepth = 0;

                // Keep previous chars to get extract numbers etc.:
                char[] previousCharacters = new char[_numberOfCharsToKeep];
                for (int j = 0; j < _numberOfCharsToKeep; j++) previousCharacters[j] = ' ';


                for (int i = 0; i < input.Length; i++)
                {
                    char c = (char)input[i];
                    if (input[i] == 213)
                        c = "'".ToCharArray()[0];

                    if (inTextObject)
                    {
                        // Position the text
                        if (bracketDepth == 0)
                        {
                            if (CheckToken(new string[] { "TD", "Td" }, previousCharacters))
                            {
                                resultString += "\n\r";
                            }
                            else
                            {
                                if (CheckToken(new string[] { "'", "T*", "\"" }, previousCharacters))
                                {
                                    resultString += "\n";
                                }
                                else
                                {
                                    if (CheckToken(new string[] { "Tj" }, previousCharacters))
                                    {
                                        resultString += " ";
                                    }
                                }
                            }
                        }

                        // End of a text object, also go to a new line.
                        if (bracketDepth == 0 &&
                            CheckToken(new string[] { "ET" }, previousCharacters))
                        {

                            inTextObject = false;
                            resultString += " ";
                        }
                        else
                        {
                            // Start outputting text
                            if ((c == '(') && (bracketDepth == 0) && (!nextLiteral))
                            {
                                bracketDepth = 1;
                            }
                            else
                            {
                                // Stop outputting text
                                if ((c == ')') && (bracketDepth == 1) && (!nextLiteral))
                                {
                                    bracketDepth = 0;
                                }
                                else
                                {
                                    // Just a normal text character:
                                    if (bracketDepth == 1)
                                    {
                                        // Only print out next character no matter what. 
                                        // Do not interpret.
                                        if (c == '\\' && !nextLiteral)
                                        {
                                            resultString += c.ToString();
                                            nextLiteral = true;
                                        }
                                        else
                                        {
                                            if (((c >= ' ') && (c <= '~')) ||
                                                ((c >= 128) && (c < 255)))
                                            {
                                                resultString += c.ToString();
                                            }

                                            nextLiteral = false;
                                        }
                                    }
                                }
                            }
                        }
                    }

                    // Store the recent characters for 
                    // when we have to go back for a checking
                    for (int j = 0; j < _numberOfCharsToKeep - 1; j++)
                    {
                        previousCharacters[j] = previousCharacters[j + 1];
                    }
                    previousCharacters[_numberOfCharsToKeep - 1] = c;

                    // Start of a text object
                    if (!inTextObject && CheckToken(new string[] { "BT" }, previousCharacters))
                    {
                        inTextObject = true;
                    }
                }

                return CleanupContent(resultString);
            }
            catch
            {
                return "";
            }
        }

        private string CleanupContent(string text)
        {
            string[] patterns = { @"\\\(", @"\\\)", @"\\226", @"\\222", @"\\223", @"\\224", @"\\340", @"\\342", @"\\344", @"\\300", @"\\302", @"\\304", @"\\351", @"\\350", @"\\352", @"\\353", @"\\311", @"\\310", @"\\312", @"\\313", @"\\362", @"\\364", @"\\366", @"\\322", @"\\324", @"\\326", @"\\354", @"\\356", @"\\357", @"\\314", @"\\316", @"\\317", @"\\347", @"\\307", @"\\371", @"\\373", @"\\374", @"\\331", @"\\333", @"\\334", @"\\256", @"\\231", @"\\253", @"\\273", @"\\251", @"\\221"};
            string[] replace = {   "(",     ")",      "-",     "'",      "\"",      "\"",    "à",      "â",      "ä",      "À",      "Â",      "Ä",      "é",      "è",      "ê",      "ë",      "É",      "È",      "Ê",      "Ë",      "ò",      "ô",      "ö",      "Ò",      "Ô",      "Ö",      "ì",      "î",      "ï",      "Ì",      "Î",      "Ï",      "ç",      "Ç",      "ù",      "û",      "ü",      "Ù",      "Û",      "Ü",      "®",      "™",      "«",      "»",      "©",      "'" };

            for (int i = 0; i < patterns.Length; i++)
            {
                string regExPattern = patterns[i];
                Regex regex = new Regex(regExPattern, RegexOptions.IgnoreCase);
                text = regex.Replace(text, replace[i]);
            }

            return text;
        }

        #endregion

        #region CheckToken
        /// <summary>
        /// Check if a certain 2 character token just came along (e.g. BT)
        /// </summary>
        /// <param name="tokens">the searched token</param>
        /// <param name="recent">the recent character array</param>
        /// <returns></returns>
        private bool CheckToken(string[] tokens, char[] recent)
        {
            foreach (string token in tokens)
            {
                if ((recent[_numberOfCharsToKeep - 3] == token[0]) &&
                    (recent[_numberOfCharsToKeep - 2] == token[1]) &&
                    ((recent[_numberOfCharsToKeep - 1] == ' ') ||
                    (recent[_numberOfCharsToKeep - 1] == 0x0d) ||
                    (recent[_numberOfCharsToKeep - 1] == 0x0a)) &&
                    ((recent[_numberOfCharsToKeep - 4] == ' ') ||
                    (recent[_numberOfCharsToKeep - 4] == 0x0d) ||
                    (recent[_numberOfCharsToKeep - 4] == 0x0a))
                    )
                {
                    return true;
                }
            }
            return false;
        }
        #endregion
    }
}

Answer 11

1

cześć ceetheman, próbowałem użyć kodu, który podałeś powyżej ... ale mam jeden problem. niektóre moje pliki PDF są odczytywane poprawnie, ale w niektórych plikach PDF w funkcji „CheckToken” pojawił się błąd „Indeks poza zakresem”. czy możesz mi pomóc rozwiązać ten problem?

Radhi

Answer 12

18

Odwołanie się do źródła przykładu to dobry i uprzejmy pomysł. W tym przypadku można znaleźć ten sam kod źródłowy tutaj codeproject.com/KB/cs/PDFToText.aspx

Myster

Answer 13

2

Mam problemy z tym kodem, zwraca gobledegook złożony z liter r i n. W końcu użyłem PDFBox.

Myster

Answer 14

Tak dziwne ... Podłączyłem plik pdf i mam 1627 pustych wierszy w moim pliku tekstowym ...

Ortund

Answer 15

1

Odpowiedź udzielona przez Brocka Nussera wygląda na najbardziej aktualne rozwiązanie i należy ją uznać za właściwą odpowiedź na to pytanie.

ceetheman

Answer 16

6

public string ReadPdfFile(object Filename, DataTable ReadLibray)
{
    PdfReader reader2 = new PdfReader((string)Filename);
    string strText = string.Empty;

    for (int page = 1; page <= reader2.NumberOfPages; page++)
    {
    ITextExtractionStrategy its = new iTextSharp.text.pdf.parser.SimpleTextExtractionStrategy();
    PdfReader reader = new PdfReader((string)Filename);
    String s = PdfTextExtractor.GetTextFromPage(reader, page, its);

    s = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.Default, Encoding.UTF8, Encoding.Default.GetBytes(s)));
    strText = strText + s;
    reader.Close();
    }
    return strText;
}

ShravankumarKumar
źródło

1

Jedyna metoda, która u mnie zadziałała! Dzięki stary!

briba

Czytnik PDF? Pls dodaj trochę informacji.

DxTx

1

@DT patrz iTextSharp

dontbyteme

Answer 17

1

Jedyna metoda, która u mnie zadziałała! Dzięki stary!

briba

Answer 18

Czytnik PDF? Pls dodaj trochę informacji.

DxTx

Answer 19

1

@DT patrz iTextSharp

dontbyteme

Answer 20

6

PDFClown może pomóc, ale nie polecam go do dużych lub intensywnie używanych aplikacji.

Ilya Kochetov
źródło

Licencjonowane LGPL, dzięki czemu można je wykorzystywać do tworzenia komercyjnego, zastrzeżonego oprogramowania.

Sylwester Santorowski

Answer 21

Licencjonowane LGPL, dzięki czemu można je wykorzystywać do tworzenia komercyjnego, zastrzeżonego oprogramowania.

Sylwester Santorowski

Answer 22

3

iText to najlepsza biblioteka, jaką znam. Pierwotnie napisany w Javie, istnieje również port .NET.

Zobacz http://www.ujihara.jp/iTextdotNET/en/

źródło

To nie jest oficjalny port, a łącze i tak jest zepsute. Oficjalny port .NET iText, iTextSharp, można znaleźć na GitHub: github.com/itext/itextsharp

Amedee Van Gasse

Answer 23

To nie jest oficjalny port, a łącze i tak jest zepsute. Oficjalny port .NET iText, iTextSharp, można znaleźć na GitHub: github.com/itext/itextsharp

Amedee Van Gasse

Answer 24

1

Możesz zajrzeć do tego: http://www.codeproject.com/KB/showcase/pdfrasterizer.aspx To nie jest całkowicie darmowe, ale wygląda bardzo ładnie.

Alex

Alex Fort
źródło

1

Czy może to pomóc w konwersji pliku PDF na surowy tekst? Wygląda na to, że narzędzie przekształca je w obraz. Więc potrzebuję biblioteki OCR :-)

JRoppert

Answer 25

1

Czy może to pomóc w konwersji pliku PDF na surowy tekst? Wygląda na to, że narzędzie przekształca je w obraz. Więc potrzebuję biblioteki OCR :-)

JRoppert

Answer 26

http://www.c-sharpcorner.com/UploadFile/psingh/PDFFileGenerator12062005235236PM/PDFFileGenerator.aspx jest oprogramowaniem typu open source i może być dla Ciebie dobrym punktem wyjścia.

Answer 27

1

aspose pdf działa całkiem nieźle. potem znowu musisz za to zapłacić

Kuvo
źródło

Answer 28

1

itext?

http://www.itextpdf.com/terms-of-use/index.php

Przewodnik

http://www.vogella.com/articles/JavaPDF/article.html

Dobermaxx99
źródło

Answer 29

0

Jest też LibHaru

http://libharu.org/wiki/Main_Page

Cetra
źródło

Link uszkodzony. libharu.org

TernaryTopiary

1

Ponadto: „W tej chwili libHaru nie obsługuje odczytywania i edytowania istniejących plików PDF i jest mało prawdopodobne, aby ta obsługa kiedykolwiek się pojawiła”. Czy to rzeczywiście ma znaczenie?

TernaryTopiary

Answer 30

Link uszkodzony. libharu.org

TernaryTopiary

Answer 31

1

Ponadto: „W tej chwili libHaru nie obsługuje odczytywania i edytowania istniejących plików PDF i jest mało prawdopodobne, aby ta obsługa kiedykolwiek się pojawiła”. Czy to rzeczywiście ma znaczenie?

TernaryTopiary

Answer 32

Zajrzyj do biblioteki Docotic.Pdf . Nie wymaga otwierania kodu źródłowego aplikacji (na przykład iTextSharp z wirusową licencją AGPL 3).

Docotic.Pdf może służyć do czytania plików PDF i wyodrębniania tekstu z formatowaniem lub bez. Zapoznaj się z artykułem, w którym pokazano, jak wyodrębnić tekst z plików PDF .

Zastrzeżenie: pracuję dla Bit Miracle, dostawcy biblioteki.

Answer 33

4

Tylko 30 dni za darmo. Nie jest to dobra opcja ...

José Augustinho

Czytanie dokumentów PDF w .Net [zamknięte]

Odpowiedzi: