В интернете кончается текст для обучения российских языковых моделей
Среди проблем развития рынка продуктов на основе больших языковых моделей в России есть нехватка данных. Об этом пишет РБК со ссылкой на Центр искусственного интеллекта МТС (MTS AI).
К концу 2024-го объем отечественного рынка составит 35 млрд руб. В ближайшие годы из-за санкций и нехватки специалистов он будет расти более низкими темпами, чем мировой.
В MTS AI рассчитывают, что компании удастся занять 21% рынка LLM-продуктов в России в этом году. Основной объем рынка, по оценке компании, — 33 млрд руб. — придется на продукты on-premise (хранение и обработка всех данных происходят на внутренней инфраструктуре заказчика), а оставшиеся 2 млрд руб. — на облачные решения. Средняя стоимость LLM-проекта без «железа» на текущий момент составляет около 15 млн рублей.
Согласно исследованию MarketsandMarkets, BIS Research и Polaris Market Research, объем рынка LLM-продуктов в мире в 2024 году составит $6,4 млрд. В ближайшие годы темпы роста будут варьироваться в диапазоне 30–35%.
Аналитики выяснили, что среди основных факторов, сдерживающих рост российского рынка LLM-продуктов, оказались санкционные ограничения , дефицит квалифицированных специалистов в области искусственного интеллекта и машинного обучения, а также нехватка данных.
«Представьте, что мы уже использовали все данные из интернета для обучения модели. Что делать дальше, чтобы создать еще более умную модель? Сегодня многие тексты в интернете тоже создаются нейросетями, но обучение на таких данных делает модель похожей на предыдущую», — объяснил представитель MTS AI.
По его словам, разработчики ищут новые подходы, например обучают нейросети на основе видео, аудио или изображений, но эффективность этих методов пока остается под вопросом. «Чтобы модели были умнее, требуются данные, созданные людьми, а не нейросетями. Вопрос в том, где найти такие данные», — отметил собеседник издания.
Ещё одна проблема — стоимость и доступность вычислительных мощностей. Оборудование обходится российским заказчикам примерно на 30% дороже, чем покупателям в других странах. Кроме того, возникают сложности с закупкой новейшего оборудования — посредники сами могут попасть под санкции за его поставку в РФ.
Существует два основных тренда в спросе на LLM-решения. Первый — их развертывание на собственных серверах заказчика (on-premise). Второй тренд — концепция «LLM-ателье», предполагающая, что разработчики предоставляют полный цикл услуг от создания идеи до внедрения решения и дальнейшей технической поддержки.
Вот ещё шесть основных областей применения языковых моделей:
- помощь в создании контента и генерации компьютерного кода;
- «умный» поиск информации в обширных базах данных;
- чат-боты и голосовые роботы для взаимодействия с клиентами;
- сервисы речевой аналитики, например технологии выявления признаков мошенничества в разговорах;
- анализ данных и создание отчетов;
- HR-ассистенты (сортировка резюме, первичный отбор и предварительные интервью с кандидатами).
«Большие модели сейчас подошли к важному с точки зрения восприятия перелому в развитии: если раньше они „умнели“ (росли в качестве) сразу по всем направлениям за счет своего размера и увеличения обучающей выборки, то сейчас этот рост сильно замедлился: кончились данные для обучения (текстов в интернете больше нет, новые не появляются с нужной скоростью). С этим связаны новости о том, что GPT-5 не дает того прироста, который был в GPT-4 по сравнению с 3.5», — прокомментировал гендиректор MTS AI Андрей Калинин.
Представитель VK уточнил, что основным драйвером для развития LLM-решений в бизнесе является подключение дополнительных источников данных для генерации ответов. Это могут быть как данные внешних игроков, так и собственные данные заказчиков: «Такой подход позволит значительно усилить системы поддержки принятия решений на основе языковых моделей, например, в решениях аналитики и маркетинга на основе данных о целевой аудитории, в корпоративных базах знаний с функцией ИИ-поиска по внутренним документам, в промышленных enterprise-решениях с использованием производственных данных и др.».