Hace poco me encontré en una situación complicada cuando recibí una escritura de más de 10 páginas en un PDF compuesto enteramente por una serie de imágenes que debía transformar de imágenes a texto. Al abrirlo, lo primero que noté fue que cada página al final tenía una marca de agua que decía “Scanned by CamScanner”; eso era lo único que se encontraba en formato de texto, el resto era una serie de imágenes casi enteramente del tamaño de una hoja de dimensión carta.
Pero ese no era el único problema; la mayoría de los contratos y documentos legales se encuentran impresos en un formato enmarcado en una tabla que tiene una serie de rayas de lado a lado, un encabezado y una serie de sellos (que tienen diversas orientaciones) e insignias en la periferia que generan ruido en el momento de intentar hacer la conversión de imágenes a texto. Para colmo de males, no tenía a la mano en mi computador personal ningún software para realizar dicha conversión.
Así que, ni corto ni perezoso, me di a la tarea de buscar una opción que no fuera muy difícil ni costosa para convertir dichas imágenes a texto y eliminar el ruido de la periferia. Investigando un poco, me encontré con una sorpresa my grata:
Google Drive permite convertir archivos de imagen en texto!
En cuestión de minutos estaba cargando el documento en Google Drive y con tan sólo:
- Hacer clic con el botón derecho sobre el archivo en cuestión,
- Posteriormente procedí a seleccionar la opción de “Abrir con > Documentos de Google”.
Ya estaba viendo resultados, aunque no eran los que esperaba! La “ley de Murphy” (enunciado de sabiduría popular que profesa, a grandes rasgos: “«Si algo puede salir mal, probablemente saldrá mal»”) entró en escena con todo su poder, dejándome frente a una página que tenía las imágenes tamaño carta que mencionaba al inicio y lo único que había sido convertido a texto era la antes mencionada frase que decía: “Scanned by CamScanner”.
Pero mi desilusión no se hizo esperar y, en menos de “un abrir y cerrar de ojos” me encontré explorando las condiciones para mejorar la calidad. Después de leer un poco más sobre dicha función de Google Drive, me di cuenta que existían una serie de puntos importantes:
- Resolución: el texto debe tener al menos 10 píxeles de alto,
- Orientación: los documentos deben estar colocados con la cara correcta hacia arriba,
- Idiomas, fuentes y conjuntos de caracteres: Google Drive detecta el idioma de los documentos,
- Calidad de imagen: las imágenes nítidas con iluminación regular y contraste claro funcionan mejor (las fotos borrosas reducen la calidad del texto),
- Tamaño de archivo: máximo 2 MB para los archivos PDF de imagen.
Debido a lo anterior, decidí recortar las imágenes para eliminar todo ese ruido del encabezado y los sellos de la periferia dejando sólo el cuerpo de la escritura usando una aplicación llamada CamScaner. El proceso me tomó unos minutos (mientras arreglaba cada página) y posteriormente convertí el resultado final en un archivo PDF. Después de eso procedí a cargar dicho PDF a Google Drive y a ejecutar el proceso de OCR de nuevo (para convertir de imágenes a texto).
Qué pasó finalmente?
El resultado final no fue perfecto pero, puedo decir que por lo menos me ahorre el 85% del trabajo de transcribir el documento. Solamente tuve que ajustar algunos caracteres y/o palabras que el sistema no tomaba correctamente dada la falta de resolución de las imágenes del PDF original.