تظهر مقاربات جديدة لتحسين فهم المستندات لأنظمة الذكاء الاصطناعي
تتبنى المؤسسات بشكل متزايد أنظمة الاسترجاع المعزز بالتوليد (RAG) للاستفادة من معرفتها الداخلية، ولكن لا تزال هناك تحديات في معالجة المستندات المعقدة بدقة. في حين أن RAG تعد بـ "فهرسة ملفات PDF الخاصة بك، وربط نموذج لغوي كبير (LLM) وإضفاء الطابع الديمقراطي على الفور على معرفة شركتك"، وفقًا لـ VentureBeat، إلا أن الواقع بالنسبة للصناعات التي تعتمد على الوثائق المعقدة كان أقل من مثالي.
غالبًا ما تتعامل خطوط أنابيب RAG القياسية مع المستندات كسلاسل نصية بسيطة، باستخدام طرق مثل "التقطيع ذي الحجم الثابت" الذي يمكن أن يعطل منطق الأدلة الفنية عن طريق تقطيع الجداول وفصل التسميات التوضيحية وتجاهل التسلسل الهرمي المرئي، حسبما ذكرت VentureBeat. يمكن أن يؤدي ذلك إلى نتائج غير دقيقة عندما يطرح المهندسون أسئلة محددة، مما يتسبب في "هلوسة" الذكاء الاصطناعي.
لمعالجة هذه القيود، يتم تطوير أطر عمل جديدة. أحد هذه الأطر، PageIndex، يتبع نهجًا مختلفًا من خلال التعامل مع استرجاع المستندات كمشكلة تنقل بدلاً من مشكلة بحث، وفقًا لـ VentureBeat. يتخلى PageIndex عن طريقة "التقطيع والتضمين" القياسية تمامًا. حقق هذا الإطار معدل دقة 98.7٪ على المستندات التي فشل فيها البحث المتجهي، حسبما أشارت VentureBeat.
تزداد الحاجة إلى تحسين فهم المستندات بشكل خاص حيث تحاول المؤسسات استخدام RAG في مهام سير عمل عالية المخاطر مثل تدقيق البيانات المالية وتحليل العقود القانونية وتصفح البروتوكولات الصيدلانية، حسبما ذكرت VentureBeat. الفشل ليس في النموذج اللغوي الكبير (LLM)، ولكن في المعالجة المسبقة.
بالإضافة إلى معالجة المستندات، تحدث تطورات علمية أخرى. يستمر البحث في مجالات مثل العلاجات البديلة للاكتئاب، حيث تشير الدراسات إلى أن فنجانًا من القهوة قد يكون له نتائج أفضل من الجرعات الصغيرة من العقاقير المخدرة، وفقًا لـ Ars Technica. بالإضافة إلى ذلك، يستكشف العلماء استخدام الفطريات كمبيد حشري محتمل، مما يوفر بديلاً أقل ضررًا للطرق التقليدية لمكافحة الحشرات التي تتغذى على الخشب مثل الخنافس والنمل الأبيض، حسبما ذكرت Ars Technica.
Discussion
AI Experts & Community
Be the first to comment