
الذكاء الاصطناعي على الحافة: تشغيل نماذج تعلم الآلة على أجهزة إنترنت الأشياء
نموذج نشر تعلم الآلة التقليدي بسيط: درّب نموذجاً في السحابة، قدمه خلف واجهة برمجة تطبيقات، واجعل أجهزة الحافة ترسل البيانات إلى السحابة للاستدلال. هذا يعمل حتى لا يعمل — عندما يجعل زمن استجابة الشبكة القرارات الفورية مستحيلة، وعندما تصبح تكاليف النطاق الترددي لبث بيانات المستشعرات باهظة، وعندما تمنع لوائح الخصوصية إرسال البيانات الخام خارج الجهاز، أو عندما لا يكون الاتصال متاحاً ببساطة. يقلب الذكاء الاصطناعي على الحافة هذا النموذج بتشغيل الاستدلال مباشرة على الجهاز حيث يتم إنشاء البيانات.
ضغط النماذج والتكميم
قد يكون نموذج تصنيف الصور المتقدم 500 ميجابايت مع 25 مليون معامل — أكبر بكثير من متحكم دقيق بذاكرة 256 كيلوبايت. الجسر من نماذج مقياس السحابة إلى النماذج القابلة للنشر على الحافة يتضمن عدة تقنيات ضغط مطبقة مجتمعة. يزيل التقليم الأوزان التي تساهم قليلاً في دقة النموذج، وعادةً ما يقلل حجم النموذج بنسبة 50-90٪. يدرب التقطير المعرفي نموذج "طالب" أصغر لمحاكاة مخرجات نموذج "معلم" أكبر. يحول التكميم أوزان الفاصلة العائمة 32 بت إلى أعداد صحيحة 8 بت، مما يقلل حجم النموذج 4 مرات مع الحفاظ غالباً على 95-99٪ من الدقة الأصلية.
خيارات وقت التشغيل: TensorFlow Lite مقابل ONNX Runtime
يهيمن نوعان من بيئات التشغيل على نشر تعلم الآلة على الحافة. TensorFlow Lite (TFLite) هو الخيار الأكثر نضجاً للمتحكمات الدقيقة والأجهزة المحمولة، مع دعم ممتاز للأجهزة القائمة على ARM وعملية تحويل موثقة جيداً من نماذج TensorFlow. متغير Micro يعمل على أجهزة معدنية عارية بذاكرة لا تتجاوز 16 كيلوبايت. يقدم ONNX Runtime المدعوم من Microsoft توافقاً أوسع مع أطر العمل — يمكنك تصدير النماذج من PyTorch وTensorFlow وscikit-learn إلى تنسيق ONNX الوسيط. عملياً، قم بقياس كلتا بيئتي التشغيل على أجهزتك المستهدفة.
اعتبارات الأجهزة لنشر الحافة
يعتمد اختيار منصة الأجهزة المناسبة على متطلبات الاستدلال وميزانية الطاقة وقيود التكلفة:
- المتحكمات الدقيقة (ARM Cortex-M): مثالية لاكتشاف الكلمات المفتاحية الدائم وتحليل الاهتزازات والكشف البسيط عن الشذوذ. استهلاك طاقة أقل من 1 ملي واط يجعل تشغيل البطارية ممكناً لسنوات. محدودة بنماذج أقل من 1 ميجابايت.
- معالجات الحافة (NVIDIA Jetson، Google Coral): توفر تسريع GPU أو TPU للرؤية الحاسوبية ومعالجة اللغة الطبيعية في الوقت الفعلي على الحافة. يمكنها تشغيل شبكات عصبية كاملة بمئات الملايين من المعاملات بمعدل 15-30 إطاراً في الثانية. استهلاك الطاقة يتراوح من 5 واط إلى 30 واط.
- FPGAs وASICs المخصصة: لعمليات النشر بكميات كبيرة حيث تكون تكلفة الوحدة وكفاءة الطاقة حاسمة، يوفر السيليكون المخصص أفضل أداء لكل واط. المقايضة هي دورات تطوير طويلة وتكاليف NRE أولية عالية.
الذكاء الاصطناعي على الحافة ليس بديلاً لتعلم الآلة القائم على السحابة بل مكمل قوي له. أكثر البنى فعالية تستخدم نهجاً هجيناً: تتعامل أجهزة الحافة مع الاستدلال في الوقت الفعلي واتخاذ القرارات المحلية مع المزامنة دورياً مع السحابة لتحديثات النماذج والتحليلات المجمعة وإعادة التدريب. مع انخفاض تكلفة مسرعات الأجهزة وزيادة قدرتها، سيتوسع نطاق النماذج القابلة للنشر على الحافة. في OKINT Digital، نساعد الفرق على التنقل في عملية تطوير الذكاء الاصطناعي على الحافة بالكامل.