RAG सिस्टम जटिल दस्तावेज़ों के साथ चुनौतियों का सामना करते हैं, नया ढांचा समाधान प्रदान करता है
वेंचरबीट के अनुसार, रिट्रीवल-ऑगमेंटेड जनरेशन (RAG) सिस्टम को तैनात करने वाले उद्यमों को परिष्कृत दस्तावेज़ों को संसाधित करते समय सीमाओं का सामना करना पड़ रहा है, खासकर भारी इंजीनियरिंग पर निर्भर उद्योगों में। जबकि RAG, PDF को अनुक्रमित करके और बड़े भाषा मॉडल (LLM) से जुड़कर कॉर्पोरेट ज्ञान का लोकतंत्रीकरण करने का वादा करता है, वास्तविकता निराशाजनक रही है, इंजीनियरों ने बुनियादी ढांचे के बारे में विशिष्ट प्रश्न पूछने पर मतिभ्रम की सूचना दी है।
मुख्य मुद्दा प्रीप्रोसेसिंग चरण में निहित है, जहां मानक RAG पाइपलाइन दस्तावेज़ों को पाठ की सपाट स्ट्रिंग के रूप में मानते हैं, "निश्चित आकार के चंकिंग" का उपयोग करते हैं जो तालिकाओं, कैप्शन और दृश्य पदानुक्रमों को अलग करके तकनीकी मैनुअल के तर्क को बाधित कर सकता है, वेंचरबीट ने 31 जनवरी, 2026 को रिपोर्ट किया। वेंचरबीट ने उल्लेख किया, "विफलता LLM में नहीं है। विफलता प्रीप्रोसेसिंग में है।"
हालांकि, PageIndex नामक एक नया ओपन-सोर्स ढांचा एक संभावित समाधान प्रदान करता है, जो दस्तावेज़ पुनर्प्राप्ति को खोज समस्या के बजाय नेविगेशन समस्या के रूप में मानता है, वेंचरबीट ने 30 जनवरी, 2026 को रिपोर्ट किया। PageIndex मानक "चंक-एंड-एम्बेड" विधि को छोड़ देता है, जिसमें दस्तावेज़ों को चंकिंग करना, एम्बेडिंग की गणना करना, उन्हें एक वेक्टर डेटाबेस में संग्रहीत करना और सिमेंटिक समानता के आधार पर मिलान पुनर्प्राप्त करना शामिल है। इस दृष्टिकोण ने वादा दिखाया है, उन दस्तावेज़ों पर 98.7% सटीकता दर प्राप्त की है जहां वेक्टर खोज विफल हो जाती है।
जैसे ही उद्यम वित्तीय विवरणों के ऑडिट, कानूनी अनुबंधों का विश्लेषण और दवा प्रोटोकॉल को नेविगेट करने जैसे उच्च-दांव वाले वर्कफ़्लो में RAG को एकीकृत करने का प्रयास करते हैं, वे पारंपरिक चंक अनुकूलन के साथ सटीकता बाधाओं का सामना कर रहे हैं। PageIndex का उद्देश्य इन सीमाओं को दूर करना है।
अन्य खबरों में, NPR ने 31 जनवरी, 2026 को बताया कि लोकतंत्र अक्सर बैकस्लाइडिंग की अवधि के बाद कमजोर और अधिक नाजुक होकर लौटते हैं। बर्मिंघम विश्वविद्यालय के प्रोफेसर निक चीज़मैन के अनुसार, जिन्होंने तीन दशकों के डेटा का विश्लेषण किया, लोकतंत्र सत्तावादी शासन के बाद वापस उछाल सकते हैं लेकिन आमतौर पर लंबे समय तक नहीं।
इसके अतिरिक्त, हैकर न्यूज ने विरल फाइलों पर चर्चा की, एक फ़ाइल सिस्टम सुविधा जो "खाली" ब्लॉकों के साथ तार्किक फ़ाइलों के निर्माण की अनुमति देती है जो भौतिक रूप से तब तक समर्थित नहीं होती हैं जब तक कि उनमें लिखा न जाए। इस सुविधा का उपयोग भंडारण को अनुकूलित करने और डेटा को कुशलतापूर्वक प्रबंधित करने के लिए किया जा सकता है। हैकर न्यूज ने एक गेम भी दिखाया जहां उपयोगकर्ता विकिपीडिया लेखों के साथ जानवरों को एक टाइमर के खिलाफ सूचीबद्ध करते हैं, जो अतिव्यापी शब्दों से बचने के महत्व पर जोर देता है।
Discussion
AI Experts & Community
Be the first to comment