редакции
Как навести порядок в тегах Instagram*
Оформление постов с телефона сопряжено с неизбежными сложностями:
- допускаются орфографические и пунктуационные ошибки;
- вписываются случайные или пропускаются нужные теги;
- вкрадываются и тиражируются досадные опечатки;
- нарушается логика следования ключевых слов.
Учитывая, что задним числом проводить систематизацию проще, выкачали посты первого соавтора:
Среди 1’325 публикаций (1) обнаружили применение:
- 12 тегов (2) среди которых нет именного: #ОлегБрагинский;
- 6 ключевых слов (3), встречающихся более чему у 10% публикаций;
- 6 редких тегов (4), составляющих 11,6% от общего количества в 3’009 слов (5).
Решили вернуть тегам начальный функционал: обеспечение навигации по массивам графических объектов. Для этого ввели правила простановки ключевых слов:
- неплохим книгам на белом пластике кухонного стола (6): издательства #alpinabook или #миф;
- лучшим томам месяца на кожаном фоне (7): #trblshtrbookofthemonth;
- достойным учебникам на деревянной полке (8): #trblshtrbook;
- книгам года на металле (9): #trblshtrbookoftheyear.
Авторским материалам тоже навесили ярлыки:
- учебным пособиям (10): #trblshtrmanual;
- аудиосборникам (11): #trblshtraudio.
Теперь, чтобы найти все посты по заданному смыслу, достаточно ввести в строке поиска Instagram соответствующее ключевое слово. Приступили к автоматизации распознавания фона, чтобы находить отсутствующие или ошибочные ключевые слова (6, 7, 8, 9).
Для этого, представили изображения
постов в виде матрицы, где пронумеровали крайние угловые пиксели согласно
схеме:
Цвет пикселей собирали в модели RGB —
«Red, Green, Blue» (12), после чего усредняли арифметически и выполняли
классификацию подложки (13)...
... с помощью фрагмента кода,
приведённого ниже:
Обратите внимание на маркер (14): показывает разницу трёх точек верхнего левого угла картинок на идентичном фоне «кожа». Инстаграм сжимает изображения при загрузке, ухудшая качество, неразличимое взгляду, но для «машинного зрения» значения не совпадают в каждом цвете.
Использование двух конкурентных способов вычисления фона поста повысило точность распознавания, разделив публикации на группы:
· подложка дважды определена одинаково (15) — вмешательство не требуется
· фон распознан единожды (16) — предстоит ручное доопределение
· есть разногласия в трактовке подложки (17)...
Заметили, что Instagram
тоже пытается распознавать содержимое изображений...
... заполняя поле description (18)
фразами (19): «image»
(изображение), «text that says»
(текст, который говорит), «book»
(книга), «one or more people»
(один или несколько человек) и «cartoon»
(ролик):
Вероятно, режим распознавания образов ещё находится на стадии тестирования, т.к. определяет мало объектов (20).
Завершив редактирование ключевых
слов, дождались круглого количества публикаций (21)...
... и повторили выкачку уже 1’400 постов (22), при этом количество используемых тегов:
· общее выросло до 13 (23)
· частых стало 7 (24)
· редких — 6 (25),
суммарный объём ключевых слов вырос до 7’323 (26):
Instagram постоянно блокировал попытки массовых обращений, определяя fingerprint — набор параметров, составляющий уникальный идентификатор пользователя. Установили, что после изменения четырёх параметров, сеть воспринимает участника, как нового, поэтому:
· изменяли данные о браузере и операционной системе
· модифицировали разрешение экрана
· снимали флажки автоматизации
· отключали звуки...
... и научились выкачивать 1’407 постов
за 2 часа 41 минуту и 13 секунд (27), установив безопасную задержку, чтобы
бдительная сеть не блокировала сеанс изнурительной связи:
Негативным последствием коррекции постов стало изменение даты и времени публикации с начального на зафиксированный в момент последнего вмешательства (28).
В ходе эксперимента по коррекции текстов и упорядочиванию тегов публикаций Instagram удалось:
1. Выстроить систему навигации, увеличив задействование
ключевых слов вдвое (29):
2. Научиться распознавать четыре типа фона: пластик, кожа, дерево, металл (6, 7, 8, 9).
3. Исправить 62 орфографические (спасибо T9) и 29 пунктуационных ошибок в текстах.
4. Унифицировать написание тегов, задав единый порядок следования.
5. Добиться безотказности выгрузки публикаций из сети.
Далее планируем:
1. Провести исследование влияния надписей на картинках на лайки и комментарии к постам.
2. Определять книги Школы траблшутеров, аудиосборники, фотографии, афиши событий.
3. Настроить автоматическую проверку соответствия изображений постов строке тегов.
4. Различать фрагменты изображения, обозначающие издательство:
5. Настроить распознавание и отметку людей.
* — социальная сеть Instagram принадлежит компании Meta, которая признана на территории Российской Федерации как экстремистская.