quarta-feira, 2 de janeiro de 2008

Projeto explora internauta para digitalizar livros

deu no G1

As letras distorcidas que você identifica para validar um cadastro on-line, seja ao criar um e-mail ou se registrar em uma rede social, podem ajudar a digitalizar livros na internet.

Com o slogan "Acabe com o spam. Leia Livros", o projeto usa o conceito de "captchas" (Completely Automated Turing Test To Tell Computers and Humans Apart) para aproveitar a crescente "mão-de-obra" gratuita na internet em nome do conhecimento.

Em vez de utilizar códigos aleatórios de letras e números para testar se o internauta que preenche um cadastro é realmente humano, o programa coloca na salada de letras palavras reais, extraídas de livros de verdade.
São palavras que não puderam ser identificadas corretamente pelo OCR - Optical Character Recognition, muitas vezes devido ao estado de conservação irregular de certas obras no papel, e são automaticamente enviadas aos geradores de palavras do sistema. Essa palavra é apresentada a um internauta que esteja, por exemplo, escrevendo seu comentário em um blog. Se ele identifica a palavra corretamente, ela é devolvida a seu lugar de origem, corrigida.

Segundo o site do projeto, cerca de 60 milhões de palavras são solucionados diariamente em toda a internet. São códigos aleatórios envolvendo letras e números que, quando identificados, deixam de existir. Se esse "exército" de digitadores fosse usado para corrigir as falhas do sistema OCR, 150 mil horas de trabalho de digitalização de livros seriam poupadas diariamente, calcula o site do projeto.


Por enquanto, as palavras identificadas são utilizadas para ajudar a digitalização de livros do site "Internet Archive", organização sem fins lucrativos que desde 1996 transforma livros de papel em textos na internet.

Nenhum comentário: