Главное Авторские колонки Вакансии Образование
465 0 В избр. Сохранено
Авторизуйтесь
Вход с паролем

Как ЯRUS ежедневно собирает более 56 000 новостей из источников и выбирает из этого самое интересное

Сегодня уже мало кто заходит на один единственный сайт, чтобы почитать новости. Медиаполе современного человека соткано из множества инфопотоков и ресурсов, и для многих вопрос информационной гигиены стоит очень остро.
Мнение автора может не совпадать с мнением редакции

Где и как организовать удобную новостную ленту, которая бы имела максимально широкий охват источников, но при этом выдавала бы из них только интересные конкретному пользователю материалы? Именно эту проблему решает раздел новостей в приложении ЯRUS, о котором пойдет речь ниже.

Ежедневно агрегатор мониторит около 10 тысяч новостных ресурсов и собирает не менее 56 000 новостей для парсинга. Со стороннего ресурса берутся заголовок, текст и изображения, поэтому у пользователя приложения есть возможность прочесть новость, не покидая его. При этом в ленте отображаются не только заголовки, но и лид, что дает возможность быстро оценить, стоит ли открыть новость и продолжить чтение или же листать дальше.


Но собрать новости с ресурсов — это лишь полдела. Важно показать пользователю только действительно важные и обсуждаемые публикации, чтобы сформировать верное представление об актуальной повестке дня. Другими словами, сделать так, чтобы новость о результатах выборов шла первой в выдаче, а о ремонте дороги в Подмосковье — на несколько скроллов ниже. Вторая задача — дать пользователю возможность самому настроить ленту под свои интересы.

Каждую из этих задач решает отдельная лента. Первая называется «Тренды» — в ней юзер видит актуальный срез новостей, которые волнуют общественность на данный момент больше всего. Чтобы новость попала в топ, она должна соответствовать ряду критериев. Во-первых, учитывается посещаемость оригинального источника — чем качественнее новостной ресурс, тем больше у него вес и тем больше вероятность, что его материалы попадут в тренды. Во-вторых, важна дата публикации — у старого материала мало шансов появиться в топе. Также большую роль играет цитируемость, т. е. частота появления того или иного сюжета в медиаполе. Тот факт, что про блокировку Telegram написало много изданий говорит о высокой цитируемости сюжета, поэтому у публикации с такой темой высокие шансы попасть в топ трендов.

Вторую задачу решает лента «Интересы» — ее пользователь может настроить так, как ему удобно, а наполнение происходит уже не на основе популярности новостного сюжета, а на том, как сильно публикация соответствует заданным интересам юзера.

К примеру, человек увлечен автомобилями и наукой и совершенно не хочет читать про политику. Тогда он выбирает соответствующие категории из списка и получает новости лишь по этим двум темам. Интересы можно выбрать не только из списка, но и указать свои.

Поиск публикаций по стандартным категориям осуществляется при помощи искусственного интеллекта, который был обучен определять тему новости на тысячах тренировочных текстов. Благодаря этому пользователь, выбравший в интересах науку, увидит в своей ленте новость, посвященную Большому адронному коллайдеру, даже если в ее тексте нет слова «наука».

При указании же интересов не из списка подбор идет именно по конкретному слову, т. е. в выдаче появляются все новости, в тексте которых это слово встречается. Да, такая модель выглядит более примитивной, но зато для более детальной настройки ленты с собственными интересами существует специальный инструмент: плюс-/минус-слова.

К примеру, пользователь хочет читать новости про дизайн, но не про дизайн интерьеров. Тогда он добавляет минус-слово «интерьер» в соответствующее поле, и в его ленте больше не появится новостей на эту тему. Плюс-слова работают по обратному принципу: они добавляют в ленту больше новостей с указанным словом.

Следующий этап развития раздела — тегировать каждую новость по темам, чтобы собрать объемную базу дополнительной внутренней уточняющей информации, на основе которой алгоритм будет еще точнее сортировать новости по категориям. А планируется это сделать в одном из ближайших релизов.

0
В избр. Сохранено
Авторизуйтесь
Вход с паролем