Ciencia y Tecnología

OCRopus, el sistema OCR de Código Abierto de Google

11 Abr 2007 – 09:26 AM EDT

Por medio del Blog de Desarrolladores de Google, nos llega la noticia de que Google abre un proyecto denominado OCRopus, a fines de crear un sistema de Reconocimiento de Caracteres ?ptico (OCR) avanzado.

Publicidad

Esta tecnología, OCR, se utiliza normalmente para digitalizar libros. El hecho de disponer de una herramienta como esta bien pulida, podría abrirle las puertas a Google a indexar nuevos contenidos, sea por permitir a otros digitalizar información o bien, al hacerlo por su propia cuenta.

El motor del proyecto OCRopus consiste en dos proyectos de investigación realizados anteriormente, uno es el lector de alta performance de lectura a mano (desarrollado en los años 90's y utilizado en Censos de EEUU), y métodos de análisis, de alta performance, que permitan darle cohesión al texto que se lee.

Esta dupla otorga la solución ideal al problema que actualmente tienen los lectores OCR, los cuales suelen venir con scanners de media/alta gama, donde normalmente presentan problemas a la hora de leer caracteres raros, o bien de agrupar correctamente lo que dice el texto. Aspectos tan básicos como frases conocidas en nuestro idioma, son indetectables para estos sistemas, por lo que solo se basan en patrones de posibles formas de las letras, y esto nos deja con un texto digitalizado ilegible.

Publicidad

Este nuevo sistema, podría presentar una amenaza para aquellas personas dedicadas a la digitalización manual de información (dataentry), ya que al ser un proyecto de código abierto, el mismo podría ser utilizado en muchos otros proyectos con un costo relativamente bajo o nulo.

Fuente: Google Code Blog

Publicidad