Вот как это работает: вы хотите, чтобы камера не просто записывала картинку, а понимала, кто на кадре, отличала автомобиль от велосипеда, замечала падение человека или подсчитывала посетителей. Для этого нужен набор данных, правильная разметка и настройка модели под вашу задачу и окружение.
Частный домовладелец захочет распознавание лиц жильцов или детектор вторжения. Магазин — подсчёт покупателей и детекцию кассовых очередей. Офис — контроль доступа и поиск аномалий. Поставщики услуг и интеграторы — масштабная автоматизация и кастомные модели для клиентов.
Нужно решить, где будет работать модель: на камере/edge-устройстве, на сервере в локальной сети или в облаке. Каждый вариант имеет свои плюсы и минусы.
Качество модели зависит от данных больше, чем от архитектуры. Нужна репрезентативная выборка для ваших условий: ракурсы, времена суток, погодные условия, плотность людей, перекрытия объектов.
Разметка — ключевой этап. Инструменты, которые часто используют: CVAT, LabelImg, Supervisely, VGG Image Annotator. Размечают bounding-box, сегментацию, ключевые точки, треки в видео.
CVAT — удобен для видеоразметки и командной работы.
Аугментация помогает при малом наборе данных: повороты, изменение яркости, шум, обрезка, симуляция тумана/дождя. Следите, чтобы аугментации были реалистичны для вашей камеры.
Если нет ресурсов для обучения с нуля, берут предобученную модель и дообучают (transfer learning). Процесс обычно такой:
Основные метрики для задач детекции—precision, recall и mAP. Для задач подсчёта — точность подсчёта и процент ошибок при пиковых нагрузках. Для распознавания лиц — FAR/FRR.
Интеграция с системой видеонаблюдения обычно через RTSP/ONVIF. Вы можете запускать модель на NVR или на отдельном сервере. Обратите внимание на совместимость с оборудованием, которое можно посмотреть в каталоге систем видеонаблюдения на y-ss.ru:
Каталог систем видеонаблюдения на y-ss.ru
Видео часто содержит персональные данные. В России действует закон о персональных данных (ФЗ-152). Нужно минимизировать хранение личных данных, защищать каналы передачи и хранение, вести журналы доступа и информировать субъектов, если это требуется. При использовании облака — учитывать юрисдикцию хранилища.
Хранение: 4 Мп камера, 15 FPS, H.264 ~2–3 Мбит/с. За сутки 2.5 Мбит/с × 86400 = ~27 ГБ. Для 10 камер — ~270 ГБ/сутки. Это грубая оценка; кодеки и сцена меняют число.
Нагрузка на CPU/GPU: простая детекция (YOLOv5 small) может работать 5–15 FPS на NVIDIA Jetson Nano; на Jetson Xavier — 20–60 FPS в зависимости от модели и разрешения.
Edge — низкая задержка, приватность, меньше трафика. Сервер — гибкость, проще обновлять модели, масштабируемость. Выбор зависит от задач и бюджета.
Маленькая хитрость: первые месяцы системы лучше работать в режиме «мониторинг и сбор ошибок» — сохраняйте кадры с ложными срабатываниями и дообучайте модель по мере накопления таких кейсов. Это даёт реальный прирост качества без больших затрат.
Если хотите подобрать оборудование или посмотреть готовые решения под разные задачи, загляните в каталог систем видеонаблюдения на y-ss.ru — там есть камеры, NVR и варианты с аналитикой, которые можно сразу использовать в проектах с AI.
