Para leer un documento PDF desde C# vamos a realizar lo siguiente:
Inicialmente cabe destacar que necesitamos la biblioteca PDFBox, que la podemos descargar de http://sourceforge.net/projects/pdfbox/
De dicha biblioteca vamos a necesitar fundamentalmente dos ficheros:
- PDFBox-0.7.2.dll
- IKVM.GNU.Classpath
Veamos los pasos necesarios para realizar el proyecto:
Cabe destacar que hay que nuestro proyecto debe contener referencias a los dos ficheros citados anteriormente.
El código sería el siguiente:
private static String leePdf(String ruta_del_fichero)
{
PDDocument documento = PDDocument.load(ruta_del_fichero);
PDFTextStripper stripper = new PDFTextStripper();
return stripper.getText(documento);
}
{
PDDocument documento = PDDocument.load(ruta_del_fichero);
PDFTextStripper stripper = new PDFTextStripper();
return stripper.getText(documento);
}
A éste método le vamos a pasar la ruta del fichero pdf a «leer» y el nos devolverá un objeto del tipo String con su contenido en formato texto plano.