22 Декабря 2017 Diggernaut 464 0 В избр. Сохранено

Данные для машинного обучения: распознавание брендов

Небольшой лайфхак для тех, кто не знает как можно ускорить процесс сбора классифицированных пользовательских изображений

Мнение автора может не совпадать с мнением редакции

Если ваша компания занимается проблематикой компьютерного зрения, то вы наверняка знакомы с проблемой нехватки графического материала для тренировки нейронной сети. Если мы обратимся к задаче распознавания брендов, то часть материала можно получить из интернет-магазинов интересующих нас брендов, однако профессиональных фотографий как правило недостаточно для успешной тренировки алгоритмов распознавания.

Здесь могли бы помочь пользовательские изображения - фотографии обычных людей в одежде и обуви определенного бренда, таких фотографий действительно много, например в инстаграм. Однако вам придется вручную классифицировать предметы на фото, и это достаточно трудоемкий процесс.

Есть небольшой лайфхак, который на начальных этапах позволит вам получить миллионы уже классифицированных пользовательских изображений. Это, вместе со сбором официальных изображений из интернет-магазинов, позволит вам использовать достаточно неплохой датасет для тренировки нейронной сети.

Дело в том, что очень многие крупные бренды и интернет-магазины используют услуги служб-агрегаторов для классификации пользовательских изображений.Таких служб как минимум несколько десятков и разной величины. Так почему бы не использовать материал в этих фидах как тренировочный?

Одним из крупнейших подобных агрегаторов является компания Curalate и ее сервис Like2Buy, она обслуживает более 6000 фидов, и все фиды используют стандартный макет страниц. Это позволит вам иметь парсер с единой логикой, который будет работать с любым фидом Like2Buy.

Этот совет позволит вам сэкономить время и деньги при сборе данных для вашей работы.

В нашем основном блоге мы более детально описали принцип работы с Like2Buy и поделились бесплатным парсером: https://www.diggernaut.ru/blog/kak-sobrat-polzovat...

В избр. Сохранено

Данные для машинного обучения: распознавание брендов

Перечень запрещённых/экстремистских организаций и иностранных агентов

Запрещённые/экстремистские организации и сообщества

Перечень иностранных агентов и запрещённых СМИ