
بناء أنظمة RAG: دليل هندسي عملي
أصبح التوليد المعزز بالاسترجاع (RAG) النمط السائد لتأسيس نماذج اللغة الكبيرة على المعرفة المؤسسية. بدلاً من ضبط نموذج على بيانات خاصة — وهو مكلف وبطيء وينشئ لقطة قديمة — يسترجع RAG المستندات ذات الصلة في وقت الاستعلام ويحقنها في نافذة سياق النموذج. المفهوم بسيط، لكن أنظمة RAG على مستوى الإنتاج تتطلب هندسة دقيقة في كل مرحلة. الفرق بين عرض يعمل على عشر وثائق ونظام يعالج الملايين بدقة متسقة كبير.
التقطيع: الأساس الذي يحدد كل شيء
كيفية تقسيم المستندات إلى أجزاء هي القرار الأكثر تأثيراً في نظام RAG. الأجزاء الصغيرة جداً تفقد السياق — فقرة عن "السياسة" لا معنى لها دون معرفة أي سياسة. الأجزاء الكبيرة جداً تخفف المعلومات ذات الصلة بالضوضاء وتستهلك رموز نافذة السياق الثمينة. النهج الساذج للتقسيم على عدد أحرف ثابت يتجاهل بنية المستند تماماً. يجب أن تستخدم أنظمة الإنتاج التقطيع الدلالي الذي يحترم حدود المستند. جرّب أحجام أجزاء بين 256 و1024 رمزاً.
نماذج التضمين وبنية مخزن المتجهات
يحدد اختيار نموذج التضمين جودة الاسترجاع مباشرة. تعمل النماذج ذات الأغراض العامة بشكل جيد لمعظم حالات الاستخدام باللغة الإنجليزية، لكن الضبط الدقيق الخاص بالمجال يمكن أن يحقق تحسينات كبيرة للمفردات المتخصصة. قيّم النماذج على أزواج الاستعلام-المستند الفعلية باستخدام مقاييس مثل NDCG@10 وrecall@k. لمخازن المتجهات، يعتمد القرار بين قاعدة بيانات متجهات مخصصة وامتدادات المتجهات على قواعد البيانات الحالية على الحجم. تحت 10 ملايين متجه، غالباً ما يكون pgvector كافياً.
إعادة الترتيب والبحث الهجين
غالباً ما يفتقد بحث تشابه المتجهات وحده النتائج ذات الصلة، خاصة للاستعلامات كثيفة الكلمات المفتاحية. يجمع البحث الهجين بين استرجاع المتجهات الكثيفة ومطابقة الكلمات المفتاحية المتفرقة (BM25) لالتقاط التشابه الدلالي والتداخل المعجمي معاً. تسترجع معظم أنظمة RAG الإنتاجية مجموعة مرشحين أولية من 20-50 مستنداً ثم تطبق معيد ترتيب للتقييم بدقة أعلى بكثير. يتفوق نمط الاسترجاع ثم إعادة الترتيب باستمرار على الاسترجاع أحادي المرحلة بنسبة 15-25٪.
التقييم: قياس ما يهم
يجب أن يقيس إطار تقييم RAG القوي الجودة في مراحل متعددة:
- جودة الاسترجاع — قس ملاءمة السياق: ما نسبة الأجزاء المسترجعة ذات الصلة فعلاً بالاستعلام؟ استخدم NDCG وprecision@k وrecall@k مقابل مجموعة بيانات مرجعية من 200 زوج استعلام-مستند على الأقل.
- أمانة الإجابة — هل تعكس الإجابة المولدة بدقة ما تقوله المستندات المسترجعة؟ استخدم تقييم LLM كحكم أو أطر عمل مثل RAGAS لاكتشاف الهلوسات والادعاءات غير المدعومة.
- جودة الإجابة الشاملة — اجمع بين التقييم البشري والمقاييس الآلية لقياس الفائدة الإجمالية. تتبع صحة الإجابة واكتمالها وإيجازها. أنشئ مجموعة اختبار انحدار تكشف تدهور الجودة عند تغيير أي مكون.
بناء نظام RAG إنتاجي هو تخصص هندسي تكراري وليس تكاملاً لمرة واحدة. كل مكون يقدم فرص ضبط تتراكم في فروق جودة كبيرة. الفرق الناجحة تعامل RAG كنظام يتم قياسه وتحسينه باستمرار. في OKINT Digital، نساعد المؤسسات على تصميم وبناء أنظمة RAG ليست مجرد عروض تجريبية بل أنظمة إنتاج بتقييم ومراقبة قوية.