Bienvenido a TechSpot    
Ingresa tu usuario  | Registrate Gratis    



Hacer pagina de inicio

Agregar a favoritos

TechSpot en inglés

 

Google utilizará tecnología OCR de código abierto
Por Derek Sooman y Erik Orejuela, TechSpot en Español
Publicado: 5 de septiembre del 2006, 1:46 PM EST

Google tiene planes de ayudar al mundo a convertir sus montañas de registros escritos a un Borg con una mente comparable a una colmena, usando un programa de reconocimiento óptico de caracteres (OCR) llamado Tesseract. Este programa fue desarrollado originalmente por HP entre 1985 y 1995, pero fue olvidado en algún cajón cuando la compañía se salio del negocio del OCR. Después de esto, fue enviado al Instituto de Investigaciones Científicas de la UNLV para que sea desarrollado bajo una licencia de código abierto.

Google ve a la tecnología OCR como la llave para hacer que una gran cantidad de información sea accesible en línea. Cuando la información se encuentra en papel, el reconocimiento óptico de caracteres es ideal para convertirlo a un formato digital que esta listo para ser indexado por la tecnología de Google.

“En resumen, trabajamos para poner información a disposición de nuestros usuarios, y cuando esta información está documentada en papel, el OCR es el proceso por el cual podemos convertir las páginas de esos documentos en texto que puede entonces ser utilizar para la indexación,” dijo Luc Vincent en el blog de Google hoy.

Tesseract sufre de algunas deficiencias que tienen que ser resueltas y según los estándares de hoy, no trabaja muy bien. Además solamente lee inglés, y no le gustan las columnas múltiples o los diseños complicados, tampoco los documentos a color. Sin embargo, probablemente es el mejor software de código abierto para el reconocimiento óptico que existe.
 

 

Noticias relacionadas
  Google utilizará unidades SSD en sus servidores
  eBay y Google unen fuerzas

Noticias mas leídas [pop]
  Assassin’s Creed 2 se estrena antes de tiempo
  Hacker derrotan activación de Windows 7, Server 2008 R2
  Computadora AMD Jaguar nombrada “supercomputadora suprema”
  Microsoft Office 2010 beta aparece en paginas torrent
  Windows 7 se lleva 4% del mercado en tres semanas



[ No hay comentarios adicionales, Publica un comentario | Envia a un amigo ]

Registrate o ingresa tu usuario para publicar tu comentario.
Mensaje:

Deshabilitar smilies.
Deshabilitar codigo block.
Agregar tags [url] automaticamente.



  TechSpot En Espanol    |    Noticias    |    Articulos    |    Descargas    |    Drivers    |    Foros    |    Precios    |    Archivo    |    XML Feeds    |    Links    |    Galeria de Usuarios   
  Mapa del Foro    |    Buscador de Hotspots    |    Backend por StoryTeller    |    TechSpot en ingles

  Copyright © 1998-2009 TechSpot.com. TechSpot es una marca registrada. Todos los derechos reservados.
Politica de Privacidad.
Publicidad | Acerca de TechSpot