Управление инцидентами: лучшие практики для быстрого решения проблем

В любой компании что-то рано или поздно ломается: не открывается программа, тормозит почта, «падает» важный сервис. Сам по себе сбой не редкость. Вопрос в другом: насколько быстро компания сможет на него отреагировать и вернуть сотрудников к работе. В статье разбираем лучшие практики управления инцидентами.

Почему управление инцидентами это процесс, а не реакция на хаос

Представим обычную ситуацию: у сотрудников перестает открываться CRM. Кто-то пишет в общий чат, кто-то звонит в ИТ, кто-то напрямую знакомому администратору, а кто-то просто ждет, что «сейчас само починится». В это время заявки приходят в разные места, часть теряется, часть дублируется, а бизнес уже стоит: менеджеры не могут работать с клиентами, задачи копятся, руководство не понимает, что происходит и когда всё восстановят.

Именно так выглядит работа без процесса — много суеты, но мало управляемости. Даже если команда в итоге все починит, компания все это время теряет часы работы, деньги и предсказуемость. 

Поэтому управление инцидентами — это не просто реакция на поломку, а понятный порядок действий: где регистрируется проблема, кто ее берет в работу, какой у нее приоритет и в какие сроки сервис должен быть восстановлен. Здесь важны и SLA, которые задают рамку по времени реакции и решения, и прозрачность для руководства, чтобы было видно, где система справляется, а где уже не хватает ресурсов или контроля.

Когда процесса нет, даже небольшой сбой легко превращается в хаос. Когда процесс есть, инциденты решаются быстрее, а бизнес меньше зависит от случайностей.

Что считается инцидентом. Где чаще всего возникает путаница

Инцидент — это отклонение или нарушение привычного рабочего процесса, которые приводят к невозможности использования услуги. Например:
  • не включается компьютер,
  • система выдает ошибку
  • пропал доступ к сервису,
  • связь или интернет сильно тормозит,
  • не отправляются или не приходят письма.
Во всех этих случаях пользователь сталкивается с тем, что не может выполнять свои задачи в обычном режиме или вовсе не может продолжать работать. Задача поддержки здесь простая — быстро зафиксировать обращение, понять, что случилось, и вернуть сервис в нормальное состояние.
При этом важно не путать инциденты с другими типами обращений. 
Запрос на обслуживание — это уже не про сбой, а про услугу в обывательском понимании. То есть ничего не сломалось, но пользователю что-то нужно для работы: доступ в систему, новый компьютер, телефон, установить программу. Запросы на обслуживание могут быть не только от пользователей. К ним также относятся и повторяющиеся сервисные или инфраструктурные работы. Например, это могут быть обходы и проверки оргтехники: хватает ли картриджей, есть ли бумага, нет ли ошибок в работе. Или плановое обслуживание серверов: периодическая чистка оборудования от пыли, проверка состояния, технические работы.
Проблема — это причина, по которой произошел сбой, т. е. проблема — это причина возникновения инцидента. Если инцидент отвечает на вопрос «что сломалось?», то проблема — на вопрос «почему это произошло?». Представим, что у пользователей не открывается система, не работает почта и не загружаются сервисы. Снаружи это выглядит как несколько разных инцидентов, но причина у них может быть одна — скажем, пропал интернет. Поэтому в ИТ важно не только быстро разрешать инциденты, но и докопаться до источника. Для этого делают анализ первопричин инцидента (RCA –Root Cause Analysis) — поиск и разбор первопричины, чтобы понять, что именно пошло не так и как не допустить повторения.
Запрос на изменение (Change Management) — здесь ничего не сломалось, но в ИТ-среде нужно что-то изменить: добавить точки Wi-Fi, расширить дисковое пространство или изменить конфигурацию. Такие изменения бывают короткие (то есть простые) и длинные (то есть более сложные).
Короткие изменения — это типовые вещи, которые регулярно возникают в работе ИТ-инфраструктуры. Например, добавить память, поменять конфигурацию или выполнить стандартную настройку. Обычно такие изменения не требуют отдельного сложного согласования: они проходят по упрощенному пути и сразу передаются исполнителям в работу. Входят в контур Service Desk.
Длинные изменения — более сложные. Они не относятся к стандартным услугам, поэтому требуют отдельного рассмотрения, а часто еще и бюджета. Сюда могут входить крупные изменения в инфраструктуре, доработка функциональности или даже внедрение новой системы. Такие запросы нередко выносятся на советы по изменениям (CAB/TAB), где смотрят, насколько изменение вообще нужно, оправдано ли оно по деньгам, реализуемо ли технически и не создает ли рисков для безопасности и архитектуры. К оценке, согласованию и реализации могут привлекаться сторонние поставщики или вендоры. Реализация таких изменений требует приемки — проверки и тестирования. Именно для таких случаев и нужен Change Management как отдельный процесс.

Таблица 1. Сравнение видов ИТ-услуг

Тип

Что это

Пример

Как обрабатывается

Инцидент

Сбой или отклонение от нормальной работы сервиса, из-за которого пользователь не может работать как обычно. Требует быстрого восстановления работы

Не включается компьютер; пропал доступ к системе; не отправляются письма; появляется ошибка при нажатии кнопки

Пользователь подает заявку, она автоматически регистрируется как тикет. Согласование не требуется. Сроки выполнения зависят от приоритета

Запрос на обслуживание

Запрос на стандартную ИТ-услугу или действие, необходимое для работы пользователя или поддержки инфраструктуры

Выдать компьютер; предоставить доступ к системе; установить программу; заменить картридж в принтере

Пользователь запрашивает услугу. Согласование может требоваться или нет — зависит от типа услуги. Устанавливаются регламентные сроки

Консультация

Обращение за разъяснением или помощью по работе с системой или сервисом. Запрос на данные

Как пользоваться функцией программы; запрос на выгрузку данных по оборудованию

Обрабатываются как запросы на обслуживание

Проблема

Первопричина одного или нескольких инцидентов. Анализируется, чтобы устранить источник повторяющихся сбоев

Сбой интернет-соединения, из-за которого не работают несколько сервисов; некорректное обновление системы, вызывающее ошибки у пользователей

Инициируются сервисной командой для поиска первопричины инцидентов. Сроки могут устанавливаться, но для сложных проблем часто не фиксируются заранее

Запрос на изменение

Запрос на изменение конфигурации, инфраструктуры или сервисов. Может быть коротким (быстрым) или длинным и требовать отдельного согласования и контроля за выполнением

Расширить память сервера; изменить конфигурацию системы; внедрить новую систему или выполнить интеграцию

Для коротких: инициируется пользователем или ИТ,требует короткого согласования, обладает регламентными сроками. 

Для длинных: инициируется внутренним заказчиком, требует отдельного процесса согласования, оценки и контроля


Путаница между типами обращений — очень частая проблема. Чаще пользователи путают инциденты и проблемы. Но это нормально, поскольку сотрудник может описывать ситуацию как угодно, своими словами. Его задача — просто сообщить, что не так. А вот задача сервисной службы — правильно понять, что именно произошло, и корректно классифицировать обращение. Нередко запросы на изменения ошибочно проводят как запросы на обслуживание или инциденты. Например, пользователь пишет: «Система показывает не то значение». Начинают проверять и выясняется, что система работает правильно, просто пользователь хочет изменить логику расчета. Значит, это уже не инцидент, а запрос на изменение.

Такие ошибки возникают и у техподдержки.
«Это происходит по разным причинам: где-то не хватает понимания процессов, где-то срабатывают внутренние KPI. Поэтому очень важно, чтобы специалисты поддержки хорошо различали типы заявок и правильно классифицировали их с самого начала. Это напрямую влияет и на скорость выполнения, и на качество управления ИТ-сервисами», — комментирует Артем Хижний, генеральный директор РИКИТЛАБ.
Артем Хижний
Генеральный директор РИКИТЛАБ
Подытоживая, инцидент — это любая ситуация, когда сервис работает не так, как должен, и из-за этого пользователь не может нормально выполнить свою задачу. При этом важно не смешивать инциденты с другими типами обращений — запросами на обслуживание, проблемами и изменениями. Когда команда поддержки хорошо понимает эту разницу, заявки проще правильно классифицировать, а значит — быстрее и точнее отрабатывать.

Жизненный цикл инцидента: этапы управления

У любого инцидента есть свой путь: от момента, когда о нем сообщили, до его решения и закрытия. Четкий порядок нужен не для формальности, а чтобы обращения не терялись и решались в понятные сроки. Именно за счет этого работа поддержки становится более управляемой и предсказуемой.

 Рассмотрим, из каких этапов обычно состоит процесс управления инцидентом.

1.Регистрация инцидента

Инцидент сначала фиксируется в сервис-деске. Пользователь может создать обращение через портал, сообщить ситуацию по телефону или направить сообщение на почту поддержки или по другому каналу. А в некоторых случаях инцидент вообще создается без участия пользователя — например, если сбой обнаружила система мониторинга.
Иногда обращение сначала регистрируется с общей категорией, потому что сразу не всегда понятно, в чем именно заключается инцидент. Поэтому на этом этапе главное — просто зафиксировать сам факт сбоя, а детали уточняются уже позже в процессе работы.

2.Автоматическая или ручная классификация

Классификация может назначаться системой автоматически при инициации обращений на почту или на основе систем мониторинга. Или выбираться пользователем или оператором при создании обращения. При этом первоначальная классификация не всегда оказывается точной. Поэтому в процессе работы она может корректироваться, когда становится понятнее, что именно нужно произошло.

3.Автоматическая приоритизация

Приоритет инцидента чаще всего назначается автоматически на основе параметров заявки — например, через ответы пользователя на вопросы формы и выбранной услуги. Это позволяет сразу определить целевые сроки решения. Для некоторых инцидентов приоритет по умолчанию может быть стандартным, для некоторых — повышенным. Приоритет может быть уточнен на этапе диагностики или в процессе решения ответственной группой.

4.Назначение группы и исполнителя

После регистрации, первичной классификации и приоритезации инцидент направляется группе по умолчанию. Это может быть первая линия поддержки или уже конкретная группа исполнителей в зависимости от правил автоматической маршрутизации. Важно, чтобы тикет как можно быстрее попал на правильную команду, отвечающую за соответствующий сервис или систему. Это ускоряет решение инцидента. После перехода тикета на группу назначается конкретный исполнитель.

5.Диагностика. Уточнение классификации и приоритета при необходимости

На этапе диагностики исполнитель анализирует инцидент и пытается понять его причину. Здесь может уточняться как классификация, так и приоритет обращения. Например, после проверки выясниться, что инцидент связан с каналом связи и это затрагивает больше пользователей или другой важный сервис. На основании диагностики принимается решение о дальнейших действиях.

6.Решение инцидента и уведомление пользователя

После диагностики и понимания причины начинается само решение. Специалист устраняет сбой, и если нужно, связывается с пользователем, чтобы что-то уточнить, проверить результат или дать рекомендации. 

Но так бывает не всегда: если инцидент, например, выявила система мониторинга, пользователь может вообще не участвовать в процессе.

Если решение инцидента вскрывает проблему, то создается («поднимается») обращение с типом проблема и инцидент привязывается к проблеме.

Когда инцидент устранен, тикет переводят в выполненный статус. При этом, при необходимости, уточняется его классификация, указывается код закрытия, добавляется внутренний комментарий с описанием выполненных работ и фиксируется затраченное время. Если это новый, ранее неизвестный инцидент или было применено новое решение, то информация об этом фиксируется в базе знаний.

После перевода инцидента в статус «выполнен» («решен») пользователь уведомляется о результате. И в течение определенного времени (период проверки) — обычно, 3-5 дней — пользователь может проверить результат и переоткрыть инцидент, если решение не помогло.

7.Закрытие и обратная связь от пользователя

Если пользователь не вернул тикет обратно в работу в период проверки, система автоматически переводит инцидент в закрытый архивный статус.

После закрытия инцидента пользователя могут попросить оценить работу поддержки — например, поставить оценку или оставить комментарий. Обычно это происходит автоматически, через уведомление. Такая обратная связь помогает понять, доволен ли пользователь результатом, и показывает, что в работе сервиса можно улучшить.

Насколько хорошо в компании выстроено управление инцидентами, обычно смотрят по метрикам. Чаще всего их привязывают к KPI сервисной команды и сравнивают факт с целевыми значениями, которые закреплены в SLA. В первую очередь обычно смотрят на скорость работы с инцидентами. Здесь важны две базовые метрики: время реакции — как быстро поддержка взяла обращение в работу, и время решения — сколько заняло полное устранение. Еще один важный показатель — доля инцидентов в потоке обращений. Любое обращение классифицируется: это инцидент, запрос на обслуживание или что-то еще. Поэтому команде важно понимать, какую часть общего потока составляют именно инциденты. Растут они от месяца к месяцу или снижаются. По каким классификациям идет рост или снижение и т. п.

Отдельно анализируют количество повторных обращений. Это может быть либо повторное открытие уже закрытого инцидента, либо новое обращение с тем же самым сбоем. Такой показатель помогает понять, насколько качественно были отработаны инциденты и были ли устранены проблемы.
«Метрики важно рассматривать в разрезе конкретных сервисов, а не по ИТ-службе в целом. Для сложных систем, например ERP, большое количество инцидентов может быть нормальной ситуацией. А для других сервисов, например обслуживания оборудования, даже небольшое число инцидентов может считаться высоким», — комментирует Артем Хижний.
Артем Хижний
Генеральный директор РИКИТЛАБ
В целом управление инцидентами — это не история про «сломалось — побежали чинить». Это нормальный рабочий процесс: зафиксировать сбой, понять, что именно произошло, расставить приоритеты, передать задачу нужным людям и как можно быстрее вернуть сервис в рабочее состояние. Когда этот процесс выстроен, поддержка работает спокойнее, а бизнес меньше зависит от авралов.

Практические советы: что важно для быстрого решения

Вот несколько важных советов, которые помогут сделать управление инцидентами более эффективным. 

Сбор всех обращений в одном месте

Пользователь может написать на почту, позвонить или оставить заявку через портал — это не так важно. Важно другое: в итоге все обращения должны фиксироваться в одной системе, где их видно, можно взять в работу и не потерять. При этом каналы должны быть понятны и прозрачны для всех пользователей. Если сотрудник пишет напрямую знакомому айтишнику — это наверняка не считается официальным каналом регистрации. А вот, например, письмо на общий адрес вроде IT Help — уже понятный и формализованный способ обратиться в поддержку.

Четкая модель приоритезации

Приоритет инцидента лучше определять не «на глаз», а по матрице приоритетов, принятой для определенного сервиса или по модели влияния и срочности (Impact & Urgency). Влияние показывает, насколько сильно сбой бьет по бизнесу: сколько пользователей затронуто, какие сервисы не работают, есть ли риск финансовых потерь. Срочность отражает, насколько критично быстро решить инцидент. Здесь учитывается, остановлена ли работа полностью, частично или пользователи могут продолжать работать, а также есть ли альтернативный способ выполнения рабочих задач.

Именно сочетание этих двух факторов и дает итоговый приоритет — от P1 (критичный) до P4 (стандартный). Чтобы приоритет определялся точнее уже на входе, удобно добавить в форму заявки несколько простых вопросов, которые помогут сразу оценить и влияние, и срочность.

Автоматизация маршрутизации 

Обращения должны сразу попадать в нужную команду, без лишних ожиданий. Для этого настраивается автоматическая маршрутизация. Если инцидент связан с оборудованием, нет смысла «гонять» его по общей очереди — он должен сразу уйти в команду, ответственную за устранение сбоев оборудования. Если таких команд несколько, можно учитывать и дополнительные вещи — например, откуда пришла заявка. Обращения из центрального офиса пойдут в центральную поддержку, из регионов — в региональные команды. Такая логика сильно упрощает жизнь: тикет не нужно лишний раз перекидывать вручную, и в работу инцидент попадает быстрее.

Единые уведомления исполнителям

Исполнители должны вовремя видеть новые и назначенные им инциденты, а также изменения по ним. Иначе тикет может слишком долго пролежать без движения. Понятные и своевременные уведомления помогают быстрее брать обращения в работу и обеспечивать целевые сроки обработки и решения

Описанные сценарии решений в базе знаний

Позаботьтесь о том, чтобы у команды поддержки была живая и актуальная база знаний — не формально «для галочки», а такая, которой реально пользуются в работе. В ней должны быть не только инструкции, но и известные ошибки, ответы на частые вопросы, новости по сервисам и заметки по изменениям. Тогда команде не придется каждый раз разбираться с одной и той же ситуацией с нуля, ведь нужное решение уже под рукой.

Регулярный анализ инцидентов 

Регулярно анализируйте новые и нетипичные инциденты. По большинству повторяющихся ситуаций обычно уже есть инструкции и статьи в базе знаний. А вот новые и нетипичные случаи важно разбирать отдельно. Смысл в том, чтобы понять, что именно произошло, как на это правильно реагировать и как лучше решать такие ситуации дальше. Опишите решение. В следующий раз команда сможет отреагировать намного быстреею А база знаний будет постепенно пополняться новым опытом.

Также нужно систематически анализировать рост и падение инцидентов одной классификации. Возможно, появилась новая проблема, требуется обучение для пользователей или нужно внести какие-то изменения.

Оценка соответствия SLA

Регулярно проверяйте, укладывается ли сервисная команда в установленные SLA. Такой анализ помогает увидеть реальную картину: иногда процесс выстроен правильно, но команда все равно не успевает из-за нехватки ресурсов или высокой нагрузки.

Быстрое решение инцидентов начинается не с героизма команды поддержки, а с правильно выстроенного процесса. Единая система зарегистрированных обращений, понятная приоритизация, автоматическая маршрутизация, своевременные уведомления, база знаний и регулярный разбор новых случаев помогают не терять обращения и быстрее доводить инциденты до решения. А контроль SLA показывает, где процесс действительно работает хорошо, а где ему не хватает ресурсов или настройки.

Кейс: как правильная приоритизация ускорила обработку инцидентов


Проблема заказчика заключалась в негибкой приоритизации инцидентов в 1С ERP: система автоматически присваивала всем заявкам стандартный приоритет, из-за чего обращения о массовых сбоях (остановка работы отдела или склада) терялись в общей очереди и оставались без своевременной реакции и решения. Это приводило к прямому простою бизнес-процессов и финансовым потерям, так как исполнители начинали работу с критическими инцидентами с опозданием.


Решением стала настройка формы обращения: пользователям предложили ответить на несколько вопросов о срочности и влиянии, чтобы система могла сразу уточнить приоритет. Это позволило автоматически выделять более критичные заявки и быстрее направлять на них внимание исполнителей.


В результате улучшились ключевые метрики: сократилось время реакции и время решения инцидентов, потому что обращения с повышенным приоритетом стали попадать в работу быстрее.

FAQ

Чем инцидент отличается от проблемы?

Инцидент — это сбой или отклонение от нормальной работы сервиса, когда что-то пошло не так (не загружается компьютер, не работает программа). А вот проблема — это причина, из-за которой возник инцидент. Например, пропала связь или вышло обновление системы.

Сколько времени должно занимать решение инцидента?

Срок обычно фиксируется в SLA: за сколько времени нужно отреагировать и за сколько решить ее. Это напрямую зависит от приоритета инцидента. Например, для приоритетов P1-P4 время реакции может составлять 15 минут, 30 минут, 1 час и 4 часа, а время решения — может составлять 2, 8, 16, 24. Для критичных систем сроки обычно делают жестче, а для VIP-пользователей иногда выделяют отдельный приоритет обслуживания.

Какие метрики самые важные?

Главное, на что обычно смотрят, — соблюдает ли поддержка SLA.
Внутри SLA могут быть разные показатели: процент соблюдения времени реакции и решения, среднее или медианное время реакции и решения, доля инцидентов в общем потоке обращений, а также оценки пользователей.

Универсального набора метрик нет: каждая компания сама определяет, что для нее важнее в рамках конкретного сервиса. Где-то на первом месте скорость, а где-то — удовлетворенность пользователей качеством поддержки.

Нужна ли автоматизация для управления инцидентами?

Определенно нужна. Пока компания маленькая, с инцидентами еще можно справляться вручную. Но по мере роста это становится все сложнее. Обращений больше, людей больше, рисков тоже больше. Поэтому обычно уже в компаниях примерно от 200 сотрудников начинают внедрять сервис-деск — систему, которая помогает собирать инциденты в одном месте, распределять их по исполнителям, отслеживать сроки и контролировать SLA.

Подходит ли процесс для малого бизнеса?

Да, сам процесс подходит и для малого бизнеса. Важно просто фиксировать обращения, понимать их тип и назначать ответственных за решение.

При этом внедрение полноценной системы сервис-деска для небольших компаний может быть финансово нецелесообразным, поэтому на старте часто используют более простые инструменты.

Заключение

В итоге управление инцидентами — это не про формальности и не про набор терминов из ITSM или ITIL. По сути, это про здравый смысл и порядок в поддержке: чтобы было понятно, что именно случилось, куда это должно пойти, кто это должен взять в работу и как быстро сервис нужно восстановить.

Когда в компании различают инциденты, запросы на обслуживание, проблемы и изменения, становится меньше путаницы, а сами обращения обрабатываются быстрее и точнее. А если еще есть понятные правила приоритезации, единая точка сбора, автоматическая маршрутизация, база знаний и контроль SLA, поддержка перестает работать в режиме постоянного ручного разбора.

В конечном счете все сводится к довольно простой вещи: пользователь не должен разбираться во внутренней кухне ИТ-службы. Он должен быстро получить помощь, когда что-то не работает. А задача сервисной команды — выстроить процесс так, чтобы это происходило стабильно, предсказуемо и в соответствии с ожиданиями бизнес-функций.