Главное Авторские колонки Вакансии Образование
2 673 0 В избр. Сохранено
Авторизуйтесь
Вход с паролем

Учимся писать парсеры: страницы с подгрузкой

Как написать парсер для сайтов, где содержимое бесконечно подгружается на страницу с помощью Javascript. Учимся на примере с Instagram.
Мнение автора может не совпадать с мнением редакции

Очень много вопросов возникает у людей, которые пытаются парсить сайты, данные на которые подгружаются когда человек прокручивает страницу до конца вниз. Поскольку этот процесс осуществляется с помощью JS и у всех по разному, создать какое-то универсальное решение не получится. Именно поэтому ни один визуальный редактор, который не имеет поддержки JS не справится с такой задачей. Единственным более менее универсальным решением могло бы служить использование headless браузера, однако с точки зрения расходования серверных ресурсов оно будет слишком затратным. Лучше потратить 10-20 минут на изучение механизма работы ресурса, чем в последствии бесконечно тратить лишнее процессорное время. Поэтому мы будем решать эту задачу используя мета-язык сервиса Диггернаут.

Как пример, мы будем использовать Instagram, поскольку он является, наверное, самым ярким представителем класса сайтов с автоматической подгрузкой данных. Поскольку задача не совсем тривиальная, статья получилась большой, с множеством вставок кода, картинок, исходников. Как обычно, из инструментов у нас будет только Google Chrome, руки и голова.

Как парсить страницы сайтов с автоподгрузкой на примере Instagram

+2
В избр. Сохранено
Авторизуйтесь
Вход с паролем