15 Декабря 2017 Diggernaut 4 992 6 В избр. Сохранено

Парсим сайты и превращаем их в API

Представляем облачный сервис для парсинга сайтов и документов.

Мнение автора может не совпадать с мнением редакции

Русская версия сервиса доступна по адресу https://www.diggernaut.ru/.

Парсингом называется процесс разбора ресурса на составляющие с дальнейшим извлечением данных. Ресурсами могут быть страницы различных сайтов, документы в разных форматах, изображения. Наш сервис призван ускорить и облегчить этот процесс для многих людей, поскольку информацией пользуются многие компании, а собирать и обрабатывать большие объемы данных вручную слишком накладно.

Наш сервис может быть полезен во многих случаях. Например, для сбора информации в целях бизнес-разведки, о товарах для e-commerce, мониторинга цен конкурентов, получения огромных массивов данных (текстовых и бинарных) для тренировки AI, проведения исследований. Парсинг широко применяется в журналистике, в частности в журналистике данных. Большое применение он нашел и в сфере риелтерских услуг, отслеживания недвижимости, динамики цен и т.д.

Что конкретно предлагает наш сервис и чем мы отличаемся от конкурентов?

1. Нами создана уникальная среда разработки с использованием специального мета-языка, позволяющего легко и быстро разрабатывать парсеры даже для самых сложных случаев. Это экономит время на этапе разработки, внедрения и обслуживания. А время, как говорится - деньги.

2. Для парсеров может быть создано расписание для запусков, то есть вам не нужно будет их запускать вручную.

3. Парсеры работают в облаке, в отличии от многих наших конкурентов в России, мы не продаем приложение, которое вам нужно установить себе и запускать парсинг на своей машине. Вам не нужно оставлять свой компьютер включенным когда ваш парсер работает, вам не нужно беспокоиться о том что ваш IP заблокируют за слишком частые запросы к ресурсу.

4. Если же вы все же хотите запускать парсеры у себя на сервере или компьютере, вы можете отвязать ваш парсер от облака, скомпилировав его под одну из поддерживаемых платформ. После компиляции, скачанный парсер является полностью автономным и может запускаться в любом месте сколько угодно раз. Однако в скомпилированных парсерах нет некоторых функций, которые есть в облачных. Например, вы не можете использовать OCR функционал и автоматическую валидацию данных, поскольку скомпилированный парсер отвязан от сервиса и не может использовать облачные функции.

5. Для единообразия обработки весь получаемый контент конвертируется в XML, так это происходит например с JSON, JS, iCal документами и изображениями что существенно облегает дальнейшую навигацию по данным и их обработку.

6. В сценарии парсера вы можете запускать фрагменты JS кода для различных кастомных расчетов, или для отработки определенного кода на странице, что упрощает написание механизма работы с тяжелыми сайтами, полностью написанными на JS и использующие генерируемые подписи для запросов.

7. Мы поддерживаем OCR. Можно извлекать текстовую информацию из изображений, или даже обходить несложную каптчу.

8. Собранные данные перед записью в датасет могут быть провалидированы автоматически с помощью JSON схемы. Это позволит вам избежать получения битых данных. Это особенно актуально, если работа с нашим сервисом у клиента полностью автоматизирована.

9. У нас есть API для автоматизации процессов взаимодействия между вашими приложениями и нашим сервисом.

10. С помощью функции "Данные по-требованию" вы можете превратить любой сайт в API. Это может быть полезным, если вам приходится постоянно работать с данными на каком-то сайте, вы хотели бы автоматизировать этот процесс, но у них нет API. Вы можете легко настроить ваше приложение на работу с нашим REST API, ваши запросы через приложение будут посылаться на наш API, наш API будет запускать парсер сайта, делать запрос на сайт за вас, получать данные, формировать датасет, пересылать этот датасет назад API, а API уже вернет вам готовый датасет в формате JSON.

11. И самое главное, если у вас нет программистов, и вы не хотите вникать в технические детали, наша команда будет рада помочь вам в разработке, внедрении, интеграции и поддержке решения для вас.

В избр. Сохранено