Главное Авторские колонки Вакансии Вопросы
115 0 В избр. Сохранено
Авторизуйтесь
Вход с паролем

Ваша система мониторинга вам лжет? Как тихий сбой может остановить бизнес, и что с этим делать

Что, если ваша система мониторинга показывает, что все в порядке, а ключевой бизнес-сервис — почта или CRM — не работает? Это не гипотетический риск. Именно с такой «тихой» аварией мы столкнулись, когда неработающая почта парализовала продажи клиента, хотя все индикаторы на дашбордах были зелеными.
Мнение автора может не совпадать с мнением редакции

На связи Дмитрий Бессольцев, руководитель ALP ITSM. Этот кейс — не просто отчет о том, как мы все восстановили за 167 минут. Это детальный разбор, который будет полезен любому руководителю или ИТ-директору.

Внутри мы покажем:

  • Почему стандартный мониторинг «здоровья» серверов может быть бесполезен.
  • Как найти корневую причину сбоя, если все системы рапортуют о штатной работе.
  • 5 ключевых процессов, которые помогут вам превратить любой будущий сбой из катастрофы в точку роста.

Эта статья — инструкция по построению надежной и гибкой ИТ-системы, которая становится только сильнее с каждым решенным инцидентом.

Проблема: Все индикаторы зеленые, а бизнес стоит

Утро, 9:17. В нашу службу поддержки поступает заявка: «Почта не работает». Для нашего клиента, крупного производителя и дистрибьютора фармацевтической продукции, это равносильно остановке сердца. На почту завязаны продажи, документооборот, переговоры с партнерами. Компания парализована.

Самое тревожное — наша система мониторинга показывает, что все серверы в норме. Зеленые огоньки, статус «Running». Технически все выглядит рабочим, но по факту — нет. О проблеме мы узнали от клиента, а не от своих систем. Это самый опасный вид сбоя — «тихий».

Диагностика: Как распутать «невидимый» инцидент

Поскольку проблема была массовой, заявка немедленно получила высший приоритет. Инженеры второй линии начали диагностику.

  • Гипотеза № 1: Проблема с сертификатами. Первичный анализ показал ночную перезагрузку сервера и ошибки сертификатов. Это симптом, но не причина.
  • Поиск корневой причины. Глубокий анализ логов выявил, что ночью на оборудовании облачного провайдера произошел сбой. Виртуальная машина с почтовым сервером была аварийно перенесена на другое «железо».
  • Точка отказа. При этой миграции виртуальная машина потеряла сетевую связь с единственным в компании контроллером домена — по сути, главной «адресной книгой» всей IT-инфраструктуры. Не получив от него конфигурацию, почтовый сервер некорректно перевыпустил внутренние сертификаты. Это и парализовало его работу.

Сервер работал, но был полностью изолирован от внешнего мира и собственной сети.

Решение: 167 минут на восстановление

Инженеры вручную восстановили сетевую связность с контроллером домена, пересоздали сертификаты и перенастроили конфигурацию служб. С момента заявки до полного восстановления почты прошло 2 часа 47 минут. Бизнес-процессы клиента снова были в строю.

Но на этом наша работа только началась.

Как превратить сбой в точку роста: 5 шагов к антихрупкой ИТ-системе

Быстро починить — это работа IT-шника. Сделать так, чтобы поломка не повторилась и не ударила по бизнесу снова — это работа IT-партнера. Любой сбой — это бесплатный урок, который помогает стать сильнее. Вот 5 простых шагов, которые полезно внедрить в любой компании.

1. Провести «разбор без виноватых»

Представьте, что у вас в годовом отчете постоянно вылезает одна и та же ошибка. Можно каждый раз править ее вручную, тратя нервы и рискуя сдать отчет с неверными цифрами. А можно один раз сесть, найти ту самую «кривую» формулу, которая ее вызывает, и исправить раз и навсегда.

Именно это мы и делаем после каждого серьезного сбоя. Мы не ищем крайнего, а спокойно разбираемся:

  • Что именно произошло? Восстанавливаем события по минутам.
  • Почему это стало возможным? Ищем ту самую «кривую» формулу — первопричину.
  • Что сделать, чтобы это не повторилось? Составляем четкий план действий.


Вот так выглядит наш отчет о массовом инциденте

Результат для бизнеса: Вместо того чтобы наступать на одни и те же грабли, мы их убираем. Это экономит время и деньги в будущем.

2. Проверить то, что важно, а не только то, что «мигает красным»

Представьте, что у вас в офисе горит лампочка, но при этом во всем здании нет электричества. Айтишник, который смотрит только на лампочку, скажет: «Все в порядке!». А вы сидите без работающего компьютера и принтера.

Для этого создаем специального робота, который каждые 5 минут:

  • Отправляет тестовое письмо.
  • Проверяет, дошло ли оно.
  • Если что-то пошло не так — он тут же бьет тревогу.

Результат для бизнеса: Мы узнаем о проблеме раньше, чем сотрудники начнут обрывать телефон. А значит, решаем ее быстрее, и ваш бизнес теряет меньше денег из-за простоя.

3. Найти и убрать «бутылочные горлышки»

Это как если бы в компании был только один человек, который умеет платить налоги или выставлять счета. Если он заболел или ушел в отпуск — работа встала. В ИТ то же самое. Если вся работа компании зависит от одного сервера, одного интернет-канала или, как в нашем случае, одного «главного» управляющего сервера — это бомба замедленного действия.

Мы проанализировали всю ИТ-систему клиента и нашли все такие «узкие места». После чего предложили план: где нужно поставить «запасного игрока», а где — подключить резервный канал.

Результат для бизнеса: Система становится надежнее. Если основной сервер сломается, работа автоматически переключится на запасной. Вы этого даже не заметите.

4. Составить «план на случай апокалипсиса»

Хорошая компания отличается от плохой не тем, что в ней не бывает проблем, а тем, что у нее есть план на случай, если они все-таки произойдут.

  • Что это? Это простая инструкция, которая называется DRP (План аварийного восстановления). В ней четко написано: если все сломалось, кто главный, кому он звонит, что мы чиним в первую очередь, и за какое время должны успеть.
  • Зачем это? Чтобы в момент паники не бегать и не кричать, а спокойно делать свою работу по шагам. Это как инструкция по пожарной безопасности: все знают, куда бежать и что делать.

Результат для бизнеса: Предсказуемость даже в хаосе. Вы точно знаете, что в случае серьезного сбоя ваша работа возобновится не «когда-нибудь», а в конкретные, заранее оговоренные сроки.

Так выглядит план аварийного восстановления, в ИТ-среде его называют DRP (Disaster Recovery Plan)

О том, как именно составить такой план и почему это не то же самое, что обычные бэкапы, мы подробно рассказали в нашей статье «ИТ-катастрофа не по расписанию: инструкция по выживанию для вашего бизнеса».

5. Договориться с поставщиками «на берегу»

Если «Водоканал» планирует отключить воду, он вешает объявление заранее. В нашем случае облачный провайдер провел работы ночью и никого не предупредил.Поэтому важно связаться и договориться с поставщиком, чтобы он информировал обо всех плановых работах или авариях. И встроить его уведомления в систему наблюдения.

Результат для бизнеса: Теперь, если у поставщика интернета или облачных услуг планируется сбой, мы узнаем об этом первыми. А значит, успеем предупредить вас и подготовить «план Б». Вы узнаете новости от нас, а не по факту неработающих сервисов.

Выводы для бизнеса

Хороший ИТ-партнер — не тот, у кого ничего не ломается (так, увы, не бывает). А тот, кто после каждой поломки делает вашу компанию чуточку сильнее, защищеннее и богаче, потому что предотвращенные убытки — это заработанная прибыль.

Это и есть работа на опережение, а не вечное «тушение пожаров».

0
В избр. Сохранено
Авторизуйтесь
Вход с паролем