Extraer texto de un PDF en Ubuntu con Nautilus-PdfTools

Bueno, ya hemos alcanzado la quinta entrega de Nautilus-Pdftools, y cada vez se pone mas complicado añadir una nueva característica a las herramientas. Hasta ahora, he publicado los siguientes artículos, de forma que en cada uno de ellos, he ido introduciendo nuevas posibilidades a las herramientas:

  1. Combina varias páginas de un PDF en una con Nautilus-Pdftools
  2. Une y separa archivos PDF con Nautilus-PdfTools en Ubuntu
  3. Gira, extrae y elimina páginas de un pdf en Nautilus
  4. Manipular PDF desde el menu contextual de Nautilus en Ubuntu

Por supuesto que todavía quedan herramientas para añadir, y posiblemente las mas interesantes, pero también las mas complicadas, desde el punto de vista de la programación, aunque ya me referiré mas adelante a este asunto.

Nautilus-PdfTools 0.0.6.1

En esta nueva versión de Nautilus-PdfTools, he añadido dos herramientas, una para redimensionar todas las páginas de un documento a un tamaño único, y una segunda herramienta para extraer todo el texto que hay en un pdf.

La primera de las herramientas está basada en la característica añadida la semana anterior para combinar varias páginas, “Combina varias páginas de un PDF en una con Nautilus-Pdftools“, pero además he además he añadido, que en el caso de que si todo el documento está por ejemplo apaisado, y una determinada página está horizontal, la gire, para aprovechar al máximo las dimensiones del documento y evitar reducir una página o ampliarla en exceso. Esta herramienta está básicamente pensada para documentos que están constituidos por varios tamaños de hoja, de forma que se dimensionan todas las páginas a un único tamaño.

Instalación

Para instalar la aplicación tienes que añadir el repositorio y actualizar:

sudo add-apt-repository ppa:atareao/nautilus-extensions && sudo apt-get update

Una vez añadido el repositorio y actualizado, puedes instalar esta extensión de Nautilus desde el Centro de Software de Ubuntu, haciendo clic en el siguiente enlace:

instalar

o bien, puedes instalarlo desde el terminal:

sudo apt-get install nautilus-pdftools

Una vez instalada la aplicación, tienes que reiniciar Nautilus, para lo que tendrás que ejecutar el siguiente comando en el terminal:

nautilus -q

Launchpad

Recordar que hay abierto un proyecto en Launchpad “Nautilus-PdfTools“, para facilitar la colaboración:

Conclusiones y futuras versiones

Para la próxima versión quiero incluir una nueva característica, consistente en poder “incrustar” una imagen en una página o en varias. Pero me gustaría hacerlo de forma gráfica, es decir, que te muestra la página, y que le puedas indicar el punto donde quieres insertar la imagen y el tamaño de la imagen, esto mediante un recuadro. Esto puede ser una opción interesante para añadir “marcas de agua” a un documento, a una única hoja o a todas las hojas.

Desde luego, que este puede ser el principio de un interesante proyecto, dado que una vez añades imágenes, también puedes añadir otras figuras (rectángulos, círculos, etc) y texto, lo que nos llevará a un siguiente paso, y es anotar un pdf. No tengo claro, que esto lo pueda hacer de una única vez, probablemente haga una versión intermedia, donde se añadirá la imagen vía un cuadro de diálogo, para posteriormente realizarlo de forma gráfica, pero estoy trabajando directamente en esta segunda opción.

 

Fuente: atareao

¿Quién está en línea?

Hay 27965 invitados y ningún miembro en línea