Главное Авторские колонки Вакансии Образование
1 681 2 В избр. Сохранено
Авторизуйтесь
Вход с паролем

Новости недели: Турбо-страницы Яндекса, Настройка RSS и Robots.txt

Неделька выдалась сумасшедшей. Касаемо проекта, это 2-3 статьи в день, плюсом настройка RSS под новую функцию Яндекса - Турбостраницы. А под конец недели я вообще обнаружил, что мой robots.txt настроен просто ужасно. Но обо всем по-порядку...
Мнение автора может не совпадать с мнением редакции

Редакторы на вес золота

Работая в режиме "две статьи по 300 слов в день", я вдруг осознал, что если бы таких как я было хотя бы двое - это уже 4 материала в день на ресурс. Подобная мысль не давала мне покоя всю неделю, ведь действительно, в таких проектах важен именно контент. А чем его больше, и чем он разнообразнее, тем лучше. И причем в разы.

Только представьте, если бы один человек писал новости, другой - статьи про программирование, а третий и вовсе мог взять всю нишу приложений. Выглядело бы это прекрасно, да и в Yandex.News можно было бы попасть в разы легче. (Для тех, кто не знает, одним из основных правил отбора в партнеры, у Яндекс.Новостей является именно наличие нескольких авторов на ресурсе. Вероятно это было сделано для того, чтобы контент, как раз-таки, генерировался по несколько штук в день).

К чему же я это все? А к тому, что проекту GitJournal.tech нужны редакторы. И если вы хотите попробовать себя в качестве редактора в нашей дружной (пока еще состоящей из двух человек) команде, то милости просим. Для связи можно использовать как ЛС на данном ресурсе, так и телеграм (@wayne1865).

Турбо-страницы убьют мобильные версии сайтов

Помимо всего прочего, на этой неделе релизнулись "Турбо-страницы" от Яндекса. Если вкратце, то это определенный RSS-фид, который транслируется вам на телефон с серверов Яндекса. Загружаются они (по словам разработчиков) уж очень молниеносно, однако, стоит заметить, вид у них не очень. Хотя на то они и "турбо".

Они формируются на основе вашего контента и наших технологий по единому шаблону — логотип сайта, иллюстрация, полный текст страницы, рекламный блок, дополнительные материалы — и быстро загружаются на смартфонах с медленным или нестабильным интернетом. В выдаче Турбо-страницы помечаются пиктограммой в виде ракеты.Турбо-страницы помогают увеличивать охват мобильной аудитории — пользователям не приходится долго ждать загрузки сайта, и они почти сразу переходят к вашему контенту. Прирост трафика может быть существенным: по данным Mediascope, 66 млн российских пользователей используют мобильный интернет наряду с десктопным, а 20 млн уже выходят в интернет только с мобильных устройств — это на 15% больше, чем год назад. - Турбо-страницы для владельцев сайтов - Яндекс

Так вот, чтобы это все работало, владельцам сайтов нужно создать и оформить RSS-фид по определенным правилам. Это включает в себя наличие в xml-файле фида определенных тегов и разметки. В справочнике Яндекса приводится пример, как это должно выглядеть, однако каких-то отдельных инструкций для реализации этого на том же WordPress, к сожалению, не было. Пришлось разбираться самому, что в конечном итоге, дало возможность написать материал про Турбо-страницы Яндекса, а также настройку RSS-фида турбо-страниц на WordPress. Ознакомиться с ним можно по приведенной ссылке.

Неправильно-настроенный robots.txt и индексация лишних страниц

Когда я в очередной раз зашел в Вебмастер Яндекса, на взгляд попалась "Возможная" ошибка, повествующая об отсутствии мета-тега Description на большом количестве страниц. Странно, подумал я, учитывая, что к каждому материалу я всегда пишу мета-описание, и тщательно слежу за этим. (до категорий руки не дошли, но тут не суть важно). Как оказалось, Яндекс проиндексировал страницы (/tag/), которые используются в ВП для лучшей навигации по материалам. К сотням тегов разнообразные мета-описания не добавишь (можно прибегнуть к использованию скрипта или плагина, но это не то), поэтому я решил заблокировать индексацию тегов в robots.txt. Но чем черт не шутит, вновь промелькнула мысль в голове, после чего я решил подойти к настройке данного файла чуть грамотнее. (Тут стоит отметить, что дальнейшие мои действия не являются обязательными. Многие ресурсы вылетают в топ-1 по своим запросам с дефолтным robots.txt).

Начитавшись разных статей на всевозможных ресурсах, я узнал, что первое, что нужно сделать, так это создать для каждого из самых важных поисковиков отдельный (User-agent). В моем случае это Google и Яндекс, поэтому мой robots.txt теперь имеет три секции:

  • User-agent: Yandex # Для Яндекса
  • User-agent: GoogleBot # для Google
  • User-agent: * # Для всех остальных

В общем-то, для чего именно это нужно: Если для Яндекса мне приходится блокировать доступ к (/tag/) через роботов, то Google это делает автоматически, поэтому наличие Disallow: /tag/ в секции для Гугл-робота не особо нужно. Также, некоторые веб-мастера заявляют, что при отдельной настройке для каждого агента индексация будет лучше. Так ли это или нет - судить не берусь, тем не менее я решил, все же, сделать все таким образом. Лишним точно не будет.

Сам образец я взял с этого сайта, и выглядит он примерно так:

User-agent: * # общие правила для роботов, кроме Яндекса и Google, # т.к. для них правила ниже 
Disallow: /cgi-bin # папка на хостинге 
Disallow: /? # все параметры запроса на главной 
Disallow: /wp- # все файлы WP: /wp-json/, /wp-includes, /wp-content/plugins 
Disallow: /wp/ # если есть подкаталог /wp/, где установлена CMS (если нет, # правило можно удалить) 
Disallow: *?s= # поиск 
Disallow: *&s= # поиск 
Disallow: /search/ # поиск 
Disallow: /author/ # архив автора 
Disallow: /users/ # архив авторов 
Disallow: */trackback # трекбеки, уведомления в комментариях о появлении открытой # ссылки на статью 
Disallow: */feed # все фиды 
Disallow: */rss # rss фид 
Disallow: */embed # все встраивания 
Disallow: */wlwmanifest.xml # xml-файл манифеста Windows Live Writer (если не используете, # правило можно удалить) 
Disallow: /xmlrpc.php # файл WordPress API 
Disallow: *utm= # ссылки с utm-метками 
Disallow: *openstat= # ссылки с метками openstat 
Allow: */uploads # открываем папку с файлами uploads 

User-agent: GoogleBot # правила для Google (комментарии не дублирую) 
Disallow: /cgi-bin 
Disallow: /? 
Disallow: /wp- 
Disallow: /wp/ 
Disallow: *?s= 
Disallow: *&s= 
Disallow: /search/ 
Disallow: /author/ 
Disallow: /users/ 
Disallow: */trackback 
Disallow: */feed 
Disallow: */rss 
Disallow: */embed 
Disallow: */wlwmanifest.xml 
Disallow: /xmlrpc.php 
Disallow: *utm= 
Disallow: *openstat= 
Allow: */uploads 
Allow: /*/*.js # открываем js-скрипты внутри /wp- (/*/ - для приоритета) 
Allow: /*/*.css # открываем css-файлы внутри /wp- (/*/ - для приоритета) 
Allow: /wp-*.png # картинки в плагинах, cache папке и т.д. 
Allow: /wp-*.jpg # картинки в плагинах, cache папке и т.д. 
Allow: /wp-*.jpeg # картинки в плагинах, cache папке и т.д. 
Allow: /wp-*.gif # картинки в плагинах, cache папке и т.д. 
Allow: /wp-admin/admin-ajax.php # используется плагинами, чтобы не блокировать JS и CSS 

User-agent: Yandex # правила для Яндекса (комментарии не дублирую) 
Disallow: /cgi-bin 
Disallow: /? 
Disallow: /wp- 
Disallow: /wp/ 
Disallow: *?s= 
Disallow: *&s= 
Disallow: /search/ 
Disallow: /author/ 
Disallow: /users/ 
Disallow: */trackback
Disallow: */feed 
Disallow: */rss 
Disallow: */embed 
Disallow: */wlwmanifest.xml 
Disallow: /xmlrpc.php 
Allow: */uploads 
Allow: /*/*.js 
Allow: /*/*.css 
Allow: /wp-*.png 
Allow: /wp-*.jpg 
Allow: /wp-*.jpeg 
Allow: /wp-*.gif 
Allow: /wp-admin/admin-ajax.php
Clean-Param: utm_source&utm_medium&utm_campaign # Яндекс рекомендует не закрывать # от индексирования, а удалять параметры меток, # Google такие правила не поддерживает 
Clean-Param: openstat # аналогично # Укажите один или несколько файлов Sitemap (дублировать для каждого User-agent # не нужно). Google XML Sitemap создает 2 карты сайта, как в примере ниже. 
Sitemap: http://site.ru/sitemap.xml 
Sitemap: http://site.ru/sitemap.xml.gz # Укажите главное зеркало сайта, как в примере ниже (с WWW / без WWW, если HTTPS # то пишем протокол, если нужно указать порт, указываем). Команду Host понимает # Яндекс и Mail.RU, Google не учитывает. 
Host: http://www.site.ru/

Естественно я правил это под свои конкретные нужды (к примеру, для тех же Турбо-страниц нужно прописывать разрешающий индексацию тег).

Теперь кратко о результатах:

  • Закреплены партнерские отношения с группой про Linux (12k)
  • Уровень посещаемости нестабилен, то падает, то возрастает
  • Индексация в Яндексе пошла активнее, появились первые переходы с ПС

Пока это все, благодарю за уделенное время на прочтение этого материала. Удачного дня :)

0
В избр. Сохранено
Авторизуйтесь
Вход с паролем