Главное Авторские колонки Вакансии Вопросы
915 0 В избр. Сохранено
Авторизуйтесь
Вход с паролем

"Цифровая орда" - IT Татарстан, журнал "Русский репортер"

Корреспондент РР побывал в самом успешном технопарке страны и разобрался, что творится в его прозрачных стенах. Естественно, зашел в гости к RealSpeaker.
Мнение автора может не совпадать с мнением редакции

У невысокого и мегаэнергичного 26-летнего Осетрова освоить модель поведения лучше нигде не нарушать пока что не очень получается. Зато ему удалось выиграть престижный конкурс молодежных инновационных проектов в сфере телекоммуникаций.

Осетров сидит за ноутбуком под арочными сводами в своем уютном офисе. На мониторе открыта страничка ВКонтакте. Он отвечает на поздравления с победой от одной, судя по аватарке, весьма симпатичной брюнетки. Именно — отвечает, совершенно не используя при этом клавиатуру.

— Привет точка Очень приятно запятая что следишь за нашими успехами… — и загадочным образом в поле сообщения его голос превращается в текст. В этом волшебстве и состоит проект распознавания речи RealSpeaker, которым руководит Осетров. Он командует: Отправить! — и сексапильная брюнетка получает надиктованную весточку.

— Еще во время учебы в Марийском госуниверситете я заинтересовался, каким образом глухие люди развивают в себе навык чтения по губам и почему бы не научить этому машину, — вспоминает Виктор. — Примерно так родилась идея РеалСпикера. Команду я создал из своих повально увлеченных программированием друзей. Йошкар-Олу тех времен недаром называли столицей интернет-мошенничества.

Распознавание речи — одна из самых интригующих и сложных задач искусственного интеллекта, над которой бьются крупнейшие корпорации мира. Гугл и Яндекс уже предлагают своим пользователям надиктовать искомые слова в строке search.

— Решения существуют, но, откровенно говоря, работают они так себе, — признается Осетров. — Мы изобрели технологию, повышающую эффективность программ распознавания речи в среднем на 20–30%. Это позволяет достичь рекордного качества расшифровки, доступного на сегодняшний день простым смертным. Фишка в том, что помимо аудиообработки мы используем видеоданные говорящего. С помощью обыкновенной веб-камеры наше приложение одновременно с определением частоты голоса анализирует движение губ пользователя — ту самую заветную артикуляцию. В итоге можно диктовать хоть в шумном баре, хоть на улице. Запускаешь РеалСпикер, открываешь любой текстовый редактор — и вперед, делай текст на семи доступных языках.

Пример работы: http://youtu.be/2borvKuLWWU

Партнерские соглашения с Samsung, LG и Toyota, приглашение на лучшие стартап-тусовки планеты, стремительно увеличивающийся пул пользователей, состоящий в основном из журналистов, блогеров, учителей и писателей… — всего этого могло и не быть, прими Виктор Осетров приглашение продолжить обучение в аспирантуре известного московского вуза.

— Еще в Университете Йошкар-Олы мною заинтересовались профессора из Москвы и предлагали писать кандидатскую, но мне посчастливилось пройти отбор в бизнес-инкубатор. Помню, как впервые приехал сюда и сразу почувствовал, что нахожусь на своем месте. Заряженная, драйвовая атмосфера, где люди не бравируют словами, а реально заняты делом. Бывает, заработаешься, выходишь из IT-парка поздно ночью, смотришь, а машина министра еще на месте. Работает министр. Приятно.

Отрывок из: Русский Репортер

0
В избр. Сохранено
Авторизуйтесь
Вход с паролем