5 онлайн-сервисов для расшифровки речи в текст на русском языке в 2023
Как мы считали точность распознавания
Мы взяли этот подкаст на ютубе и вручную перевели его в текстовый формат, чтобы сопоставить, с результатами расшифровки сервисов автоматической транскрибации. Для каждого сервиса в сравнении мы указали результат по метрике WER. Частота ошибок в словах (Word Error Rate, WER) — это метрика, используемая в распознавании речи для оценки качества распознавания текста. WER измеряет процент ошибок в распознавании текста, выраженный в процентах от общего числа слов в исходном тексте.
Например, если исходный текст содержит 100 слов, а распознанный текст содержит 10 ошибок, WER будет равен 10%. Чем ниже WER, тем более точным является распознавание речи.
Помимо качества распознавания мы еще сравнили сервисы по следующим критериям:
- стоимость за минуту расшифровки
- скорости обработки на примере часовой записи
- наличие функции разбивки текста по спикерам
- наличие встроенного редактора и его функциональность
- возможность экспорта текста
1. Teamlogs.ru
Teamlogs.ru — онлайн-сервис транскрибации аудио и видео. Сервис принимает любые аудио- и видеофайлы и расшифровывает их в текст, автоматически расставляет знаки препинания и делит текст по спикерам.
Стоимость расшифровки начинается от 7 рублей за минуту при покупке от 90 минут и выше при покупке менее 90 минут. Новым пользователям дается 15 бесплатных тестовых минут.
Транскрибация тестового файла стоила 522 рубля (58 минут), обработка файла заняла 6 минут.
Дополнительно следует отметить встроенный редактор текста с прослушиванием аудио, который может быть полезен для ревью распознанного материала. Экспорт текста в форматах *.docx, *.xlsx, *.srt.
Результат теста:
- Частота ошибок в словах: 5.31%
- Скорости обработки на примере часовой записи: 6 минут
- Наличие функции разбивки текста по спикерам: да
- Наличие встроенного редактора: да, с функцией прослушивания аудио
- Экспорт: *.docx, *.xlsx, *.srt
На что стоит обратить внимание:
- Максимальный размер файла 800 мб
- Аудиодорожка в редакторе хранится 30 дней
2. RealSpeaker.net
Realspeaker.net — онлайн сервис с выбором множества языков для транскрибации. Стоимость минуты — 8 руб, бесплатно можно распознать аудио до 90 секунд, максимальная длительность загружаемого файла — 180 минут. Расшифровка тестового файла заняла 20 минут и стоила 427 рублей.
После завершения процесса расшифровки сервис предлагает перейти в раздел «Мои медиа», где среди различных файлов (!), вам необходимо найти свой. В данном разделе вы можете найти распознанные файлы всех пользователей данного сервиса. Текст мы получили без разбивки на спикеров.
Сервис позволяет редактировать полученный текст, но без прослушивания и без сохранения изменений. Позже, когда мы вернулись за своим файлом в сервис, мы не смогли его найти, поэтому на картинке скрин рандомного файла.
Полученный текст можно скопировать, либо скачать в форматах *.srt или *.vtt
Результат теста:
- Частота ошибок в словах: 23.79%
- Скорости обработки на примере часовой записи: 20 минут
- Наличие функции разбивки текста по спикерам: отсутствует
- Наличие встроенного редактора: есть, без прослушивания
- Экспорт: *.srt, *.vtt
На что стоит обратить внимание:
- Ваш текст окажется в открытом доступе, скачать его смогут все пользователи сайта
- Максимальный длительность файла 180 минут
3. APIHOST
Apihost — набор различных сервисов по работе с аудио и текстами, в числе которых есть и распознавание речи. Стоимость за минуту записи 2.4 руб, максимальный лимит на размер файла 200 мб. Чтобы загрузить файл бОльшего размера нужно писать на почту в поддержку. Стоимость транскрибации тестового файла составила 139,72 рублей, но заплатить пришлось 500 рублей, так как это минимальная сумма пополнения.
По скорости расшифровки: первая загрузка файла завершилась неудачей, сервис не отвечал в течение 15 минут, пришлось грузить повторно. Со второй попытки файл был переведен в текст за 6 минут.
Текст со знаками препинания, но без разбивки по спикерам. После транскрибации сервис не позволяет редактировать файл, его можно только посмотреть. Текст скачать можно как файл *.txt, *.doc или просто скопировать текст.
Результат теста:
- Частота ошибок в словах: 15.68%
- Скорости обработки на примере часовой записи: 6 минут
- Наличие функции разбивки текста по спикерам: отсутствует
- Наличие встроенного редактора: отсутствует
- Экспорт: *.txt, *.doc
На что стоит обратить внимание:
- Максимальный размер файла 200 мб
- Минимальная сумма пополнения от 500 рублей
4. Speechtotext.ru
Speechtotext.ru — онлайн-сервис по расшифровке аудио в текст, час распознавания здесь стоит 100 рублей, новым пользователям дают 10 тестовых минут. Сервис не позволяет загрузить файл, пока не пополнен счёт. Расшифровка тестового файла заняла 15 минут.
Также у данного сервиса есть телеграм-бот, но там лимит по размеру файла 20 мб.
Текст получился без разбивки на спикеров, онлайн-редактор есть, но без функции прослушивания, распознанный текст можно скачать в формате txt.
Результат теста:
- Частота ошибок в словах: 15.12%
- Скорости обработки на примере часовой записи: 15 минут
- Наличие функции разбивки текста по спикерам: отсутствует
- Наличие встроенного редактора: есть, без прослушивания
- Экспорт: *.txt
На что стоит обратить внимание:
- Перед загрузкой файла необходимо зарегистрироваться и пополнить счет
5. Wordvoice.ru
Wordvoice.ru — сервис для расшифровки аудио или видеозапись в текст. Одна минута расшифровки здесь стоит 5 рублей, минимальная сумма пополнения счета 100 рублей. При регистрации сервис выдает 90 рублей в кошелек для тестовых расшифровок. За транскрибацию тестового файла заплатили 205 рублей, а готовая расшифровка появилась через 5 минут. Текстовую расшифровку сервис позволяет скачать с таймкодом и без. Предусмотрено встроенное редактирование текста без возможности сохранения.
Результат теста:
- Частота ошибок в словах: 11.99%
- Скорости обработки на примере часовой записи: 5 минут
- Наличие функции разбивки текста по спикерам: отсутствует
- Наличие встроенного редактора: есть, с функцией прослушивания
- Экспорт: *.txt
На что стоит обратить внимание:
- Редактированная расшифровка не сохраняется в сервисe
Итог
Мы подготовили сводную таблицу, в которой отображены результаты тестирования онлайн-сервисов для расшифровки речи в текст на русском языке. Эта таблица позволит ознакомиться с основными параметрами сервисов, такими как стоимость, качество расшифровки, наличие и функциональность редактора текста, возможности экспорта.
Надеемся, что данная таблица поможет вам выбрать подходящий сервис и облегчит вашу работу