Extrae palabras en lugar de letras de files pdf?

Utilizo less que usa pdftotext para extraer text de files pdf, por less my.pdf . De esta forma, algunas letras de palabras están separadas por espacios de un file pdf .

 CH APTE R 2 5 TE ST IN G WE BAPP LIC AT IO NS 540 

Algunos afirmaron que Adobe Reader no tiene problemas con eso. No tengo el progtwig para verificar eso. Pero estoy interesado en saber qué progtwigs de software en Linux pueden extraer las palabras correctamente.

Related of "Extrae palabras en lugar de letras de files pdf?"

PDF y su hermana mayor PostScript son los lenguajes utilizados para crear documentos que reproducen el mismo resultado cada vez en cualquier dispositivo: monitor, impresora, imprenta, etc. Por eso permite que el creador del documento especifique las properties de cada carácter individualmente. Sin mirar su documento, solo estaría adivinando la razón por la cual el creador separaba los personajes. La razón más común es el kerning. Es donde se ajusta el espacio entre los personajes.

Tienes suerte de que los personajes estén realmente en order. No hay ninguna razón por la cual el creador no puede reorganizar los personajes por lo que están completamente fuera de service. Aunque parezcan palabras en la página, en su caso no son palabras en el código PDF.

pdf está compuesto por un tipo de letra para producir un resultado visual, no es estrictamente necesario ni siquiera contener información de text. Imagínelo como un tablero de impresora con letras de plomo puestas en él. Cada letra es una caja con position, tamaño y estilo absolutos. También lo son todas las imágenes y demás. Si tiene una fórmula matemática, puede ver dónde está el problema: ¿quién dijo que el text es lineal? Tienes un revoltijo de glifos, cada uno posicionado y dimensionado, sin importar el propósito del creador original.

Usted tiene la posibilidad de get algún parecido del text verdadero, porque el pdf es una versión simplificada (y actualizada / ajustada) de PostScript, y todavía tiene commands que "imprimen" cadenas más largas a la vez (que luego se muestran para el estilo especificado con fonts incrustadas). Esto es lo que obtienes con pdftotext . Aún así, los saltos, espacios en blanco, etc., pueden ser confusos si el resultado de la aplicación original se divide en palabras o letras para lograr la apariencia visual deseada.

No tiene suerte si el text se convirtió en curvas de bezier o si se escaneó el documento. Muchos espectadores modernos tienen capacidades de OCR, por lo que todavía funciona una forma rudimentaria de búsqueda y selección. Pero no espere get un resultado bien formateado: la extracción de text es principalmente ingeniería inversa.

Se necesitaría un documento más estructurado para manejarlo adecuadamente, algo que contuviera tanto el contenido semántico como las capacidades fijas de visualización independientes del dispositivo. No tenemos eso. html es adecuado para salida paginada y los oxps no son mucho mejores que el pdf en esa materia.