उद्यम जटिल दस्तावेज़ों को संभालने में RAG सिस्टम की सीमाओं से जूझ रहे हैं
उद्यम बड़े भाषा मॉडल (LLM) के साथ अपने आंतरिक डेटा का लाभ उठाने के लिए तेजी से रिट्रीवल-ऑगमेंटेड जनरेशन (RAG) सिस्टम को अपना रहे हैं, लेकिन VentureBeat के अनुसार, कई लोग पा रहे हैं कि ये सिस्टम परिष्कृत दस्तावेज़ों के साथ संघर्ष करते हैं। मुद्दा मुख्य रूप से प्रीप्रोसेसिंग चरण में है, जहां मानक RAG पाइपलाइन अक्सर दस्तावेज़ों को पाठ की सपाट स्ट्रिंग के रूप में मानते हैं, जिससे महत्वपूर्ण जानकारी का नुकसान होता है।
RAG सिस्टम का उद्देश्य LLM को मालिकाना डेटा में स्थापित करना है, जिससे व्यवसायों को वर्कफ़्लो को स्वचालित करने, निर्णय लेने में सहायता करने और अर्ध-स्वायत्त रूप से संचालित करने की अनुमति मिलती है। हालांकि, VentureBeat ने बताया कि "फिक्स्ड-साइज़ चंकिंग" पर निर्भरता, जिसमें दस्तावेज़ों को मनमाने खंडों में काटना शामिल है, तकनीकी मैनुअल और अन्य जटिल दस्तावेज़ों से निपटने के दौरान हानिकारक हो सकता है। यह विधि छवियों से कैप्शन को अलग करती है, तालिकाओं को आधा काटती है और पृष्ठ के दृश्य पदानुक्रम की उपेक्षा करती है।
VentureBeat के अनुसार, विफलता LLM में नहीं है, बल्कि दस्तावेज़ों को विश्लेषण के लिए तैयार करने के तरीके में है। दिप्पू कुमार सिंह ने VentureBeat में लिखा कि PDF को अनुक्रमित करने और कॉर्पोरेट ज्ञान को तुरंत लोकतांत्रिक बनाने का वादा भारी इंजीनियरिंग पर निर्भर उद्योगों के लिए निराशाजनक रहा है। बुनियादी ढांचे के बारे में विशिष्ट प्रश्न पूछने वाले इंजीनियरों ने पाया है कि बॉट उत्तरों का भ्रम पैदा करता है।
वरुण राज ने VentureBeat में लिखा कि पुनर्प्राप्ति में विफलताएं AI सिस्टम के तैनात होने के बाद सीधे व्यावसायिक जोखिम में फैल जाती हैं। बासी संदर्भ, अनियंत्रित एक्सेस पथ और खराब तरीके से मूल्यांकन की गई पुनर्प्राप्ति पाइपलाइनें विश्वास, अनुपालन और परिचालन विश्वसनीयता को कमजोर कर सकती हैं, राज ने कहा। उन्होंने पुनर्प्राप्ति को एप्लिकेशन लॉजिक के बजाय बुनियादी ढांचे के रूप में फिर से परिभाषित किया।
वर्तमान RAG सिस्टम की सीमाएं अधिक परिष्कृत प्रीप्रोसेसिंग तकनीकों की आवश्यकता पर प्रकाश डालती हैं जो जटिल दस्तावेज़ों की संरचना और संदर्भ को संरक्षित कर सकती हैं। RAG विश्वसनीयता में सुधार LLM को ट्वीक करने के बारे में नहीं है; यह सुनिश्चित करने के बारे में है कि सिस्टम उन दस्तावेज़ों को समझता है जिन्हें वह संसाधित कर रहा है।
Discussion
AI Experts & Community
Be the first to comment