Pdf Text Extractor

 


Bueno ya estamos en verano, y hoy me apetece compartir con vosotros una herramienta que uso antes que el OCR: una función simple para extraer texto de un PDF. Me refiero a esos PDFs donde el texto se puede seleccionar y copiar, no los que son solo imágenes.

Si alguna vez necesitas extraer texto de este tipo de PDFs, puedes usar iTextSharp y su PdfExtractor para lograrlo.

En el ejemplo que voy a mostrar, he creado dos funciones. La primera, llamada of_pdftotxt, convierte un PDF en un archivo de texto. La segunda, of_pdftoblob, devuelve el contenido del PDF en un blob. Con esta segunda función, puedes usar filewrite desde PowerBuilder para obtener el mismo resultado que con la primera función.

Como curiosidad, quiero comentar que he intentado crear la librería en iText7, pero, al igual que con otros ejemplos, da error al ejecutar las funciones desde la librería. Sin embargo, si creo un programa de consola y pruebo las funciones, se ejecutan correctamente. Esto mismo me ha pasado con el ejemplo de Firma Digital y con el ejemplo de Rellenar campos en un formulario PDF. No sé si estoy haciendo algo mal en iText7 o si me falta alguna referencia. El caso es que con iTextSharp funcionan correctamente de las dos maneras.

En el ejemplo de Visual Studio, he dejado comentado el código para usar con iText7 en vez de con iTextSharp, por si alguien se anima a resolver el misterio...

En fin, el artículo de hoy es breve pero espero que os resulte útil, no dudéis en dejar vuestros comentarios y sugerencias.

Recursos y Enlaces

Como siempre, os dejo los enlaces a los proyectos actualizados en GitHub:

Comentarios