понедельник, 11 января 2010 г.

reCaptcha: А вы помогаете распознавать New York Times?

RECAPTCHA - это бесплатный сервис CAPTCHA (капча), помогающий оцифровывать книги.

Капча (англ. CAPTCHA) - программа или сервис, проверяющая, является ли ее пользователь человеком или компьютером. Изображения с искаженным или зашумленным текстом часто можно встретить внизу регистрационных форм, форм отправки сообщений на различных сайтах и форумах. Очень немногие компьютерные программы могут понимать искаженный текст, тогда так люди могут делать это достаточно легко. Таким образом, сайты и интернет-сервисы затрудняют автоматическим программам для рассылки спама их вредоносную деятельность.

RECAPTCHA улучшает процесс оцифровки книг, отсылая слова, которые не могут быть распознаны компьютерами, в Сеть, в виде капчей для людей, чтобы те могли их расшифровать. Точнее, каждое слово, которое не может быть правильно распознанным программой, помещается в изображение и используется как капча. Это не сложно, т.к. большинство программ распознавания извещают пользователя, когда слово не может, по какой либо причине, быть распознанным верно.

Но если программа не всегда может дешифровать капчу, как система узнает правильный ответ? Идея проста как все гениальное: каждое новое слово, которое не может быть правильно распознано программно, отдается пользователю вместе с другим словом, которое системе уже известно. Пользователя просят ввести оба слова. Если человек угадывает то слово, которое уже известно системе, то предполагается, что ответ верный. Затем система RECAPTCHA отдает это изображение другим людям, чтобы определить, с более высокой точностью, был ли ответ верным.

Каждый день системой автоматически распознается более 200 миллионов слов. В настоящий момент сервис используется на более чем 100 тысячах онлайн-ресурсов включая широко популярные сайты, такие как Facebook и Twitter. Сейчас, по заверениям создателей, она помогает распознавать старые выпуски New York Times.

Технология, позволяющая превращать отсканированные куски с текстом в нормальные цифровые тексты, очень понравилась так же и Google которая купила данный старт-ап и планирует использовать его на благо собственного проекта по оцифроке книг Google Books и поиска по новостям Google News Archive Search.

Составлено по материалам:
Digitizing Books One Word at a Time
Оцифровываем книги креативно!
Что такое RECAPTCHA (Рекапча)

2 комментария:

  1. Гм..., так а то слово, которое распознал человек куда оно вносится?

    ОтветитьУдалить
  2. Другому человеку отправляется такая же картинка (тоже в качестве неизвестной системе), и его ответ добавляется в набо ответов по картинке. Потом включается статистика, и если из 10 человек 9 ответили одинаково, значит слово распознано с точностью 90%. Наверное как то так.

    ОтветитьУдалить