Apps Новости

Project Naptha. Выделяй, копируй и переводи тексты с любых картинок

Project Naptha. Выделяй, копируй и переводи тексты с любых картинок
Технозавр

Project Naptha — это расширение для Google Chrome, с помощью которого можно легко обработать текст со скриншотов и картинок. Текст можно выделить, скопировать, загуглить, перевести, произнести… В общем, незаменимое средство для активных пользователей социальных сетей. Проект был создан Кевином Квоком (Kevin Kwok) совместно с Гильермо Уэбстером (Guillermo Webster) и представляет собой систему OCR (Optical character recognition), реализованную в JavaScript в виде браузерного расширения.

bradbury-paste

Project Naptha, несмотря на простоту для конечного пользователя, довольно сложный внутри.

Прежде всего, перед тем как непосредственно распознавание текста началось, нужно определить где собственно находятся блоки с текстом на картинке. Довольно нетривиальная задача, учитывая то, что текст может располагаться поверх совершенно разных фонов и сам по себе иметь разные цвета. Для реализации этого механизма Naptha использует проект Microsoft Stroke Width Transform (SWT) — эффективный алгоритм, который отталкивается от того, что шрифты обычно имеют примерно равномерную толщину линий (font-weight) и, следовательно, легко отделить блоки текста от остального шума на картинке.

Naptha, конечно же, не распознает каждую картинку на открытой странице, ведь это было бы крайне расточительно по отношению к ресурсам. Вместо этого начинает распознавание расположения блоков текста только после… нет, не наведения мыши на картинку (mouseover), как вы могли подумать, а предположения о том, что курсор будет над картинкой, основываясь на его движении. Дальше Web Workers (мультипоточность в фоне) работают над распознаванием расположения текста на картинке без какого-либо ощутимого торможения браузера.

Когда вы выбрали блок текста и кликнули «Copy Text» (Ctrl+C), он посылается на сервер с Ocrad OCR — движком с открытым кодом для распознавания текста. Ocrad попытается распознать кусок растровой картинки в текст, что может занять пару секунд, и после завершения вернет распознанный текст, который можно будет вставить обычным образом куда угодно (Ctrl+V).

Функция перевода пока что в бете — для того чтобы ее попробовать, нужно отправить запрос на электронный адрес Кевину. Предполагается, что она будет работать схоже c уже работающим аналогом в Google Translate на мобильных устройствах:

Проект все еще находится в стадии тестирования, но даже на текущий момент он достаточно хорош чтобы использовать его в работе.

Источник: Хабрахабр