Flaky tests - Деконструкция реальности

К словарю | К списку вопросов

Flaky tests, или нестабильные, «моргающие» тесты, — это автоматизированные
тесты, которые могут проходить и падать при одном и том же коде приложения и
неизменных условиях запуска. Они разрушают доверие к тестовой системе, потому
что CI перестаёт быть источником надёжного сигнала.

Почему появляются flaky tests

Чаще всего нестабильность возникает из-за одной или нескольких причин:

проблемы с асинхронностью и ожиданиями, когда тест обращается к элементу
раньше, чем он успел появиться или отрисоваться;
зависимость от порядка запуска, когда тест оставляет после себя изменённое
состояние и ломает следующий сценарий;
нестабильность окружения и сети, когда внешние API, сервисы или база данных
отвечают с задержкой или временно недоступны;
проблемы многопоточности и race conditions при параллельном запуске;
нестабильные тестовые данные, например зависимость от текущего времени,
случайных значений или плохо очищаемого состояния;
слабая изоляция между тестами и shared state.

Чем они опасны

Flaky tests вредны не только сами по себе. Они:

замедляют разработку, потому что команды вынуждены по нескольку раз
перезапускать pipeline;
маскируют реальные баги, потому что к падениям начинают относиться как к
шуму;
тратят время QA и разработчиков на разбор ложных срабатываний;
подрывают доверие к CI/CD, и в итоге тестовая система перестаёт помогать
принимать решения.

Как с ними бороться

Практический подход обычно включает несколько шагов:

воспроизвести и локализовать проблему, понять, связана ли она с данными,
окружением, порядком запуска, временем или асинхронностью;
заменить жёсткие паузы на явные ожидания состояния;
изолировать тестовые данные и убрать зависимость от shared state;
вынести внешние зависимости за пределы теста через mocks, stubs, test
doubles или контейнеры;
временно пометить нестабильный тест как quarantined, если он мешает релизам,
но обязательно завести задачу на исправление;
пересмотреть саму архитектуру тестов, если flaky tests появляются регулярно.

Что обычно стабилизируют

UI-тесты: ожидания элементов, корректная синхронизация с рендером, отказ от
sleep;
API-тесты: фиксация контрактов, контроль данных и состояния базы;
интеграционные тесты: изоляция сервисов, явные тестовые окружения,
стабильные заглушки;
параллельные тесты: устранение race conditions и недетерминированного
порядка выполнения.

Ответ на собеседовании

Flaky tests — это не мелкая неприятность, а риск для доверия к CI. Я
рассматриваю их как дефект тестовой системы: сначала воспроизвожу и нахожу
причину, потом устраняю источник нестабильности, а если тест мешает релизу,
временно изолирую его, чтобы не блокировать команду. Главная цель — вернуть
надёжный сигнал от тестов, потому что без доверия к ним покрытие само по
себе мало что значит.

Практический вывод

Если flaky tests появляются регулярно, это обычно сигнал не только о проблеме
в конкретном тесте, но и о более глубокой боли: слабой изоляции, тяжёлых e2e,
нестабильном окружении или плохой управляемости зависимостей.