Google tiene
planes de ayudar al mundo a convertir sus montañas de registros escritos a un
Borg con una mente comparable a una colmena,
usando un programa de
reconocimiento óptico de caracteres (OCR) llamado
Tesseract. Este programa fue desarrollado originalmente por
HP entre 1985 y 1995, pero fue olvidado en algún cajón cuando la compañía se salio del negocio del OCR. Después de esto, fue enviado al Instituto de Investigaciones Científicas de la UNLV para que sea desarrollado bajo una licencia de código abierto.
Google
ve a la tecnología OCR como la llave para hacer que una gran cantidad de información sea accesible en línea. Cuando la información se encuentra en papel, el reconocimiento óptico de caracteres es ideal para convertirlo a un formato digital que esta listo para ser indexado por la tecnología de Google.
“En resumen, trabajamos para poner información a disposición de nuestros usuarios, y cuando esta información está documentada en papel, el OCR es el proceso por el cual podemos convertir las páginas de esos documentos en texto que puede entonces ser utilizar para la indexación,” dijo Luc Vincent en el blog de Google hoy.
Tesseract sufre de algunas deficiencias que tienen que ser resueltas y según los estándares de hoy, no trabaja muy bien. Además solamente lee inglés, y no le gustan las columnas múltiples o los diseños complicados, tampoco los documentos a color. Sin embargo, probablemente es el mejor software de código abierto para el reconocimiento óptico que existe.