Wide cinematic visualization of IoT devices running AI inference at the edge

ИИ / МО·10 мин чтения

Edge AI: запуск моделей машинного обучения на IoT-устройствах

Автор Osman Kuzucu·Опубликовано 2025-06-28

Традиционная модель развёртывания ML проста: обучите модель в облаке, разверните за API и отправляйте данные с периферийных устройств в облако для инференса. Это работает, пока не перестаёт — когда сетевая задержка делает решения в реальном времени невозможными, когда стоимость трафика для потоковой передачи данных датчиков становится запретительной, когда правила конфиденциальности запрещают отправку сырых данных с устройства или когда подключения просто нет. Edge AI переворачивает эту модель, запуская инференс непосредственно на устройстве, где генерируются данные.

Сжатие и квантизация моделей

Современная модель классификации изображений может занимать 500 МБ с 25 миллионами параметров — слишком много для микроконтроллера с 256 КБ RAM. Мост от облачных моделей к развёртываемым на периферии включает несколько техник сжатия. Прунинг удаляет веса, мало влияющие на точность, обычно уменьшая размер на 50-90%. Дистилляция знаний обучает меньшую модель-«ученика» воспроизводить выходы большей модели-«учителя». Квантизация преобразует 32-битные веса с плавающей точкой в 8-битные целые числа, уменьшая размер в 4 раза при сохранении 95-99% исходной точности.

Среды выполнения: TensorFlow Lite и ONNX Runtime

Две среды выполнения доминируют в развёртывании edge ML. TensorFlow Lite (TFLite) — наиболее зрелый вариант для микроконтроллеров и мобильных устройств с отличной поддержкой ARM-оборудования и хорошо документированным конвейером конвертации. Вариант Micro работает на устройствах с 16 КБ памяти. ONNX Runtime от Microsoft обеспечивает более широкую совместимость фреймворков — можно экспортировать модели из PyTorch, TensorFlow, scikit-learn в промежуточный формат ONNX. На практике бенчмаркайте оба варианта на целевом оборудовании — скорость инференса, потребление памяти и точность после квантизации могут существенно различаться.

Аппаратные аспекты периферийного развёртывания

Выбор правильной аппаратной платформы зависит от требований к инференсу, энергетического бюджета и ограничений по стоимости:

Микроконтроллеры (ARM Cortex-M): идеальны для постоянного обнаружения ключевых слов, анализа вибрации и простого обнаружения аномалий. Потребление менее 1 мВт обеспечивает работу от батареи годами. Ограничены моделями до 1 МБ.
Edge SoC (NVIDIA Jetson, Google Coral): обеспечивают GPU или TPU ускорение для компьютерного зрения и NLP в реальном времени. Запускают полные нейросети с сотнями миллионов параметров при 15-30 FPS. Потребление от 5 до 30 Вт.
FPGA и заказные ASIC: для массовых развёртываний, где критичны стоимость за единицу и энергоэффективность, кастомный кремний обеспечивает лучшую производительность на ватт. Компромисс — длительные циклы разработки и высокие начальные NRE-затраты.

Edge AI — не замена облачному ML, а мощное дополнение. Наиболее эффективные архитектуры используют гибридный подход: периферийные устройства обрабатывают инференс в реальном времени, периодически синхронизируясь с облаком для обновления моделей, агрегированной аналитики и дообучения. По мере удешевления и роста возможностей аппаратных ускорителей спектр моделей для периферии будет только расширяться. В OKINT Digital мы помогаем командам пройти весь конвейер edge AI — от оптимизации моделей до стратегий OTA-обновлений.

edge aiiotmachine learningmodel optimizationembedded systems

Хотите обсудить эти темы подробно?

Наша команда доступна для архитектурных ревью и стратегических сессий.

Запланировать консультацию →