تواجه المؤسسات قيود أنظمة الاسترجاع المعزز بالتوليد (RAG) في التعامل مع المستندات المعقدة
تتبنى المؤسسات بشكل متزايد أنظمة الاسترجاع المعزز بالتوليد (RAG) للاستفادة من بياناتها الداخلية مع نماذج اللغة الكبيرة (LLMs)، لكن الكثيرين يجدون أن هذه الأنظمة تعاني من صعوبات في التعامل مع المستندات المعقدة، وفقًا لموقع VentureBeat. تكمن المشكلة بشكل أساسي في مرحلة المعالجة المسبقة، حيث غالبًا ما تتعامل خطوط أنابيب RAG القياسية مع المستندات كسلاسل نصية مسطحة، مما يؤدي إلى فقدان المعلومات الهامة.
تهدف أنظمة RAG إلى ترسيخ نماذج اللغة الكبيرة (LLMs) في البيانات الخاصة، مما يسمح للشركات بأتمتة سير العمل، ودعم اتخاذ القرارات، والعمل بشكل شبه مستقل. ومع ذلك، فإن الاعتماد على "التقطيع ذي الحجم الثابت"، والذي يتضمن تقسيم المستندات إلى أجزاء عشوائية، يمكن أن يكون ضارًا عند التعامل مع الأدلة الفنية والمستندات المعقدة الأخرى، حسبما أفاد موقع VentureBeat. تفصل هذه الطريقة التسميات التوضيحية عن الصور، وتقطع الجداول إلى نصفين، وتتجاهل التسلسل الهرمي المرئي للصفحة.
وفقًا لموقع VentureBeat، فإن الفشل ليس في نموذج اللغة الكبيرة (LLM) نفسه، ولكن في الطريقة التي يتم بها إعداد المستندات للتحليل. كتب Dippu Kumar Singh في VentureBeat أن الوعد بفهرسة ملفات PDF وإضفاء الطابع الديمقراطي الفوري على معرفة الشركات كان مخيبًا للآمال بالنسبة للصناعات التي تعتمد على الهندسة الثقيلة. وجد المهندسون الذين يطرحون أسئلة محددة حول البنية التحتية أن الروبوت يهلوس بالإجابات.
كتب Varun Raj في VentureBeat أن الإخفاقات في الاسترجاع تنتقل مباشرة إلى مخاطر الأعمال بمجرد نشر أنظمة الذكاء الاصطناعي. يمكن أن يؤدي السياق القديم ومسارات الوصول غير المنظمة وخطوط أنابيب الاسترجاع التي تم تقييمها بشكل سيئ إلى تقويض الثقة والامتثال والموثوقية التشغيلية، على حد تعبير Raj. يعيد صياغة الاسترجاع على أنه بنية تحتية بدلاً من منطق التطبيق.
تسلط القيود المفروضة على أنظمة RAG الحالية الضوء على الحاجة إلى تقنيات معالجة مسبقة أكثر تطوراً يمكنها الحفاظ على بنية وسياق المستندات المعقدة. إن تحسين موثوقية RAG لا يتعلق بتعديل نموذج اللغة الكبيرة (LLM)؛ بل يتعلق بالتأكد من أن النظام يفهم المستندات التي يعالجها.
Discussion
AI Experts & Community
Be the first to comment