Данные для машинного обучения: распознавание брендов
Если ваша компания занимается проблематикой компьютерного зрения, то вы наверняка знакомы с проблемой нехватки графического материала для тренировки нейронной сети. Если мы обратимся к задаче распознавания брендов, то часть материала можно получить из интернет-магазинов интересующих нас брендов, однако профессиональных фотографий как правило недостаточно для успешной тренировки алгоритмов распознавания.
Здесь могли бы помочь пользовательские изображения - фотографии обычных людей в одежде и обуви определенного бренда, таких фотографий действительно много, например в инстаграм. Однако вам придется вручную классифицировать предметы на фото, и это достаточно трудоемкий процесс.
Есть небольшой лайфхак, который на начальных этапах позволит вам получить миллионы уже классифицированных пользовательских изображений. Это, вместе со сбором официальных изображений из интернет-магазинов, позволит вам использовать достаточно неплохой датасет для тренировки нейронной сети.
Дело в том, что очень многие крупные бренды и интернет-магазины используют услуги служб-агрегаторов для классификации пользовательских изображений.Таких служб как минимум несколько десятков и разной величины. Так почему бы не использовать материал в этих фидах как тренировочный?
Одним из крупнейших подобных агрегаторов является компания Curalate и ее сервис Like2Buy, она обслуживает более 6000 фидов, и все фиды используют стандартный макет страниц. Это позволит вам иметь парсер с единой логикой, который будет работать с любым фидом Like2Buy.
Этот совет позволит вам сэкономить время и деньги при сборе данных для вашей работы.
В нашем основном блоге мы более детально описали принцип работы с Like2Buy и поделились бесплатным парсером: https://www.diggernaut.ru/blog/kak-sobrat-polzovat...