| Artículos | 01 ENE 1995

OCR

El trabajo bien reconocido

Compartir

Pedro Arconada.

Me acuerdo del año en que los reyes magos me regalaron una máquina de escribir . Me sentía fascinado por el aspecto estético que aparecía en el papel, y la perfección de unas letras gemelas que a golpe de teclado surgían de ese hardware . Hoy si mi trabajo tuviera que ver con el mecanografiado de textos probablemente hubiera escrito una carta con una petición especial: " . para este año me gustaría un OCR " . Seguro que ya sabrían que se trata de un programa de Reconocimiento Óptico de Caracteres . El OCR es el proceso de transferir texto de las páginas impresas a un ordenador para que el conjunto de caracteres pueda se editado y vuelto a usar -rápida y fácilmente- sin volver a escribirlo . Un escáner traduce su visión de la página en datos mediante mapas de bits al dividir la imagen en millones de puntos . Después, asigna un valor a cada punto, según esté cubierto de tinta o en blanco .

Los caracteres de texto, por otra parte, están compuestos de códigos asignados a cada letra, número o símbolo . El más común de los códigos es la tabla ASCII ( Código Estándar Americano para el Intercambio de Información ) . La conversión de un mapa de bits al código ASCII para el ordenador no es fácil . En el pasado, el reconocimiento de texto consistía en comparar la forma de un mapa de bits a una biblioteca de formas de caracteres; si las formas coincidían, se identificaba la letra . Pero, desafortunadamente, sólo servía para una cantidad limitada de fuentes y tamaños, y como los textos varían mucho se necesitaría un gran cálculo por parte del ordenador . Hoy en día, sin embargo, se analizan las características individuales de los caracteres ( análisis de características ) en lugar de hacer coincidir las formas ( coincidencia de matrices ) .

Al convertir una imagen en mapa de bits a texto usable, el software OCR debe hacer lo siguiente: analizar la estructura del texto en la página para detectar la presencia de columnas y encabezados; separar el texto de los gráficos; aislar cada caracter del texto con el fin de identificarlo; interpretar los resultados del reconocimiento y resolver cualquier ambigüedad; y si se desea generar el formato de la página con las fuentes tipográficas .

Si un documento ha sido tratado con una aplicación de OCR y está plagado de frecuentes errores, sin duda se debe achacar a la calidad del original o a la parte que corresponde a la manipulación con el escáner . Habremos de atender especialmente estos dos consejos si no queremos desengañarnos con esta tecnología y si pretendemos evitar no sólo el remecanografiado, sino también el reescaneado . De todas formas y a pesar de las buenas aplicaciones de OCR que existen el mercado hay algunos problemas comunes en todas ellas .

Si exploramos páginas impresas de alta calidad, encontraremos que los programas de OCR reconocen el texto perfectamente, coincidiendo de forma exacta con el de la página explorada . Esto es lo que ha sucedido con nuestras pruebas referentes al documento explorado de nuestra revista de impresión offset . En el caso de que las páginas sean de menor calidad, la exactitud de reconocimiento de texto será inferior . He aquí unos factores que son los que más afectan a la perfección que buscamos en todo reconocimiento de textos: a ) calidad del documento; b ) opciones del escáner; c ) ángulo de exploración; d ) claridad del cristal del escáner; e ) transparencia del papel ( hay que poner detrás un papel negro si es necesario ) .

Es necesario instruirse en unas técnicas que obtengan una pasada óptima del escáner desde un primer intento, y en los pocos problemas o dificultades que se deben evitar . Primero, no hay que imaginar el resultado del documento sólo por la apariencia del original escaneado . Algunos vendedores de aplicaciones de OCR afirman que sus productos conservan el formato original del documento con tabulados, tipografías, tamaños, y estilos ( negrita cursiva, subrayado, etc . ) . No se lo crea al pie de la letra, ya que, seguramente, tendrá en la mayoría de las ocasiones que reformatear una buena parte de lo que se exploró .

Las fases del reconocimiento

Tres podían ser las fases en las que dividiríamos el proceso de trabajo con un OCR . Cada una de ellas esta directamente unida al resultado final del producto y a la fiabilidad del mismo por lo que afectará a la exactitud final . Necesitará un escáner, por supuesto una aplicación de OCR, y la destreza suficiente como operador con dicho paquete .

Configurar el escáner

En esta etapa se especifican los pormenores referentes a la resolución de la imagen y el brillo . Algunos programas pueden explorar un documento que contiene gráficos y salvar los gráficos separadamente, como OmniPage Professional . Asimismo, se puede retener o descartar el formato o estilo de la tipografía . La resolución normal oscila en torno a los 300 puntos por pulgada, en un tamaño DIN A4 . Esto puede ocupar poco más de 1 MB, aunque eso no significa que en otros documentos debamos dar más resolución a las páginas a escanear por necesidad del reconocimiento como, por ejemplo, en los impresos matriciales . Un programa de OCR no puede proporcionar precisión sin una imagen de alta calidad . El porcentaje de exactitud caerá en picado si nuestra fuente de datos -la hoja que se ha de explorar- esta girada, ladeada, torcida, o arrugada; o si el ajuste del brillo del escáner es pobre o inadecuado lo que producirá un revoltijo de caracteres sin sentido o una imagen cuyo resultado adolecerá de grandes defectos . Una imagen muy oscura tendrá problemas porque las letras en el escáner tienden a tocarse y las porciones huecas de caracteres redondos ( como la e ) derivan en rellenos . La imagen inadecuada complica el progreso de reconocimiento porque los detalles finos de los caracteres se pierden . Un ejemplo, si la parte superior e inferior de una O se ha perdido, un OCR puede interpretarlo mal al escribir dos paréntesis - ( ) - .

Los programas soportan alimentación automática de documentos disponibles en algunos escáneres planos . OmniPage Professional permite escanear originales o doble cara, primero trabaja con la páginas impares, luego escanea las pares y luego el programa pone las páginas en el orden correspondiente .

Seleccionar las zonas o el texto que se va a reconocer

Si debe trabajar con un documento complejo de múltiples columnas, se necesita configurar el programa de OCR, qué columnas se quieren reconocer y el orden a seguir . Todos los programas proveen una herramienta de enmarcado de área que permite seleccionar la zona que se quiere reconocer . Para ello debe elegir el modo manual, ya que existe un modo automático que en documentos con evidentes espaciados entre columnas o párrafos es más que suficiente .

Se trata de una descomposición de la página según las preferencia del programa, basándose en los espacios blancos verticales y horizontales . Pero pueden surgir problemas . Los más comunes son con las leyendas o pies de gráficos, y con las tablas de textos con líneas horizontales, muy normales en las publicaciones, que pueden acabar intercalándose con el texto principal . También se puede intentar reconocer un membrete cuando lo que interesa es sólo el contenido de la carta . O puede coger las columnas de una tabla de forma equivocada reconociendo el texto por columnas, de arriba a abajo, en lugar de seguir la lectura por filas . Para solucionar estos problemas, lo recomendable es usar el modo manual de enmarcado en las zonas que interese . Existe la posibilidad de guardar plantillas que describen los límites para las páginas con una presentación específica . Estas puede ahorrar mucho tiempo si se trabaja con un mismo diseño de página .

Reconocimiento

Es el momento principa

Contenidos recomendados...

Comentar
Para comentar, es necesario iniciar sesión
Se muestran 0 comentarios
X

Uso de cookies

Esta web utiliza cookies técnicas, de personalización y análisis, propias y de terceros, para facilitarle la navegación de forma anónima y analizar estadísticas del uso de la web. Consideramos que si continúa navegando, acepta su uso. Obtener más información