20 Октября 2025 Spark_news Беличенко Виктория 270 1 В избр. Сохранено

DeepSeek представил ИИ для распознавания документов

Компания DeepSeek анонсировала DeepSeek-OCR - инновационную открытую модель, предназначенную для анализа и идентификации документации.

Система, в отличие от традиционных OCR-технологий, не ограничивается простым извлечением текстовой информации, она реконструирует целостную структуру документа, включая заголовки, перечни, таблицы и подписи к изображениям, и предоставляет результат в формате Markdown, оптимизированном для индексации и дальнейшей обработки нейросетями. DeepSeek-OCR, распространяемая под лицензией MIT, доступна для использования через платформу Hugging Face.

Ключевой особенностью разработки является «оптическое контекстное сжатие». Модель фокусируется на извлечении ключевой информации и структуры, избегая избыточного детализирования. Такой подход позволяет уменьшить размер обрабатываемых данных в 10-20 раз, что способствует значительному снижению стоимости обработки, поскольку сокращение количества токенов напрямую влияет на скорость и экономичность последующих языковых моделей.

В DeepSeek-OCR используются так называемые визуальные токены — своего рода «снимок» отдельных частей изображения. Даже при ограниченных вычислительных ресурсах (64–100 токенов) достигается точность распознавания 97–99 %. Для обработки сложных документов предусмотрен режим Gundam, автоматически разделяющий документ на фрагменты для более детального анализа проблемных областей без снижения общей производительности. Система также поддерживает привязку распознанных элементов к их точным координатам на странице, что обеспечивает возможность определения положения таблиц, подписей и схем.

В ходе тестирования на наборах данных Fox и OmniDocBench система продемонстрировала впечатляющую эффективность. На Fox точность распознавания практически не снижается даже при минимальном количестве визуальных токенов, а степень сжатия достигает коэффициента 20. На OmniDocBench DeepSeek-OCR демонстрирует низкий уровень ошибок при использовании значительно меньшего количества токенов по сравнению с ресурсоемкими мультимодальными моделями, такими как Qwen или GOT-OCR 2.0. Другими словами, достигается аналогичное качество, но с существенно меньшими вычислительными затратами.

В избр. Сохранено