
Un pdf, normalmente, puede convertirse a texto de una manera sencilla. Simplemente se exporta y se elige el formato que deseamos. Eso, si el texto del pdf puede ser editable. No estamos en el caso de que el pdf esté protegido, hablamos de un pdf normal y, aunque estuviera protegido, se puede desproteger.
El caso que me lleva a escribir este post es el de un pdf antiguo, un pdf que se comporta como una imagen, no hay texto editable por ningún lado. Probé algunos programas y opciones online y lo convertían a word, pero tratando cada página del pdf como imagen, no como texto.
También, al escanear una imagen o un documento, el archivo obtenido es una imagen o una serie de imágenes que se podrían convertir en documento de texto editable a través de lun programa de reconocimiento óptico de caracteres (OCR), por ejemplo, el disponible en el Microsoft OneNote o los que pueden venir con un escaner. Pero tampoco hablamos de esta posibilidad.
Queríamos algo rápido y sencillo, online, y al final localizamos onlineocr.net donde, registrándote, puedes subir tu pdf , lo convierten y te proporcionan un fichero word que puedes descargarte. Si tu documento es excesivamente largo, siempre puedes comprar créditos a un precio muy económico. Sin registrarte puedes convertir solo una página.
Otra opción online es free-online-ocr.com, gratuito sin registro, pero la probamos y fallaba en algunas páginas. En lugar de convertir todo a texto, había partes que las trataba como imagen. Será cuestión de probar.
PD: esta entrada la escribo a mediodía. Por la tarde me llega un email de la marca de mi escáner que dice: «Actualiza la tecnología OCR del software de escaneado xxx con el nuevo Readiris Pro 14 y disfruta de funciones de reconocimiento de documentos avanzadas.» Qué cosas.