Бесплатно собрать данные: расширение от iDatica
Мы — компания «iDatica» занимаемся коммерческим сбором данных, мониторингом цен. Данные собираем, что называется в «промышленных масштабах» — миллионы значений, парсинг приложений и динамическое содержимое, прокси, постобработка, обход капчи, мониторинг качества, бэкапы, вот это вот все. Для таких задач нет универсального инструмента, не стандартные требования = кастомная разработка.
Но, к нам обращаются и не крупные заказчики, основная задача которых — разовый парсинг какого-либо каталога или даже определенной категории на сайте. На такие работы тратиться время, а стоимость не всегда оправдывает затраты и мы сделали расширение чтобы такие работы можно было сделать самостоятельно и бесплатно.
Может появиться вопрос — «зачем же делать парсер, если расширения с похожим функционалом уже есть?» Потому, что не удалось найти расширение, которое бы решало описанные задачи и было более-менее универсальным.
Часть из рассмотренных расширений работает в режиме «без кода», т.е. само ищет повторяющиеся блоки данных на странице, но как только попадается сложный сайт — данные «едут» или расширение уходит в цикл поиска значений, из которого не возвращается. Часть расширений предоставляют минимальный функционал, а за большую функциональность или сам сбор данных нужно платить (об этом вы можете узнаеть после регистрации). Часть слишком сложны или интерфейс на китайском (бесспорно для кого-то будет плюсом).
Функциональные возможности расширения для парсинга
В нашем расширении нет ракетных технологий — приложение с простым интерфейсом, ручными настройками и возможностью сохранять/загружать шаблоны.
Для поиска данных используется xpath запрос или css селектор.
С одной стороны нужно уметь написать путь к элементу, с другой вы получаете возможность «ручного управления» — самостоятельно выбрать какие данные получить. Пусть вас не пугает xpath и css, если вы с ними не знакомы, у нас есть статья, которая на примерах научит базово использовать эти инструменты.
Список возможностей расширения:
- Парсинг каталогов с пагинацией (автоматизируется нажатие кнопки «далее»);
- Парсинг своего набора ссылок;
- Возможность ограничить сбор данных в нужной части страницы (этот же функционал задает повторяющиеся блоки карточек товара при парсинге интернет-магазинов);
- Возможность задать задержку между переходом на следующую страницу (избегаем блокировки, но увеличиваем время парсинга);
- Автоматический поиск xpath и css селектора до нужного элемента;
- Предпросмотр — визуально находит на странице элемент;
- Предпросмотр — какие данные на странице собирает написанный запрос и их общее количество;
- Загрузка и сохранение шаблонов (на нашем сайте нас можно скачать несколько готовых);
- Экспорт данных в csv и json;
- Лог всего происходящего.
Принимаются критика и пожелания.
*****************************************
У нас можно заказать коммерческий сбор данных с сайтов или мобильных приложений.