Acceder a ficheros PDF

C#
Autor: Dámaso Velázquez Álvarez

Para leer un documento PDF desde C# vamos a realizar lo siguiente:

Inicialmente cabe destacar que necesitamos la biblioteca PDFBox, que la podemos descargar de http://sourceforge.net/projects/pdfbox/

De dicha biblioteca vamos a necesitar fundamentalmente dos ficheros:

  • PDFBox-0.7.2.dll
  • IKVM.GNU.Classpath
Veamos los pasos necesarios para realizar el proyecto:

Cabe destacar que hay que nuestro proyecto debe contener referencias a los dos ficheros citados anteriormente.

El código sería el siguiente:

private static String leePdf(String ruta_del_fichero)
{
   PDDocument documento = PDDocument.load(ruta_del_fichero);
   PDFTextStripper stripper = new PDFTextStripper();
   return stripper.getText(documento);
}

A éste método le vamos a pasar la ruta del fichero pdf a "leer" y el nos devolverá un objeto del tipo String con su contenido en formato texto plano.

pdf