RAG সিস্টেমগুলি জটিল ডকুমেন্ট নিয়ে সমস্যায় পড়ছে, নতুন ফ্রেমওয়ার্ক দিচ্ছে সমাধান
ভেঞ্চারবিটের মতে, রিট্রিভাল-অগমেন্টেড জেনারেশন (RAG) সিস্টেম স্থাপনকারী সংস্থাগুলি জটিল ডকুমেন্ট প্রক্রিয়াকরণের ক্ষেত্রে সীমাবদ্ধতার সম্মুখীন হচ্ছে, বিশেষ করে ভারী ইঞ্জিনিয়ারিংয়ের উপর নির্ভরশীল শিল্পগুলিতে। RAG পিডিএফ ইন্ডেক্স করে এবং লার্জ ল্যাঙ্গুয়েজ মডেলের (LLM) সাথে সংযোগ স্থাপনের মাধ্যমে কর্পোরেট জ্ঞানকে সহজলভ্য করার প্রতিশ্রুতি দিলেও, বাস্তবতা হতাশাজনক। প্রকৌশলীরা অবকাঠামো সম্পর্কে নির্দিষ্ট প্রশ্ন জিজ্ঞাসা করলে ভুল উত্তর পাচ্ছেন।
মূল সমস্যাটি প্রিপ processing পর্যায়ে। ভেঞ্চারবিট ২৬শে জানুয়ারি, ২০২৬ এ জানায়, স্ট্যান্ডার্ড RAG পাইপলাইন ডকুমেন্টগুলোকে টেক্সটের সরল স্ট্রিং হিসাবে বিবেচনা করে এবং "ফিক্সড-সাইজ chunking" ব্যবহার করে, যা টেবিল, ক্যাপশন এবং ভিজ্যুয়াল শ্রেণিবিন্যাসকে কেটে ফেলে টেকনিক্যাল ম্যানুয়ালগুলোর যুক্তিকে ব্যাহত করতে পারে। ভেঞ্চারবিট উল্লেখ করেছে, "ব্যর্থতা LLM-এর নয়। ব্যর্থতা প্রিপ processing-এ।"
তবে, PageIndex নামের একটি নতুন ওপেন-সোর্স ফ্রেমওয়ার্ক ডকুমেন্ট পুনরুদ্ধারকে একটি অনুসন্ধান সমস্যা না ভেবে একটি নেভিগেশন সমস্যা হিসাবে দেখে একটি সম্ভাব্য সমাধান দিচ্ছে, ভেঞ্চারবিট ৩০শে জানুয়ারি, ২০২৬ এ জানায়। PageIndex স্ট্যান্ডার্ড "chunk-and-embed" পদ্ধতি ত্যাগ করে। এই পদ্ধতিতে ডকুমেন্ট chunking করা হয়, এমবেডিং গণনা করা হয়, একটি ভেক্টর ডেটাবেসে সংরক্ষণ করা হয় এবং শব্দার্থিক মিলের ভিত্তিতে ফলাফল পুনরুদ্ধার করা হয়। এই পদ্ধতিটি ভালো ফল দিয়েছে এবং ভেক্টর সার্চ যেখানে ব্যর্থ হয়, সেখানে ৯৮.৭% নির্ভুলতা অর্জন করেছে।
যেহেতু সংস্থাগুলি আর্থিক বিবরণী নিরীক্ষণ, আইনি চুক্তি বিশ্লেষণ এবং ওষুধ সংক্রান্ত প্রোটোকল নেভিগেট করার মতো গুরুত্বপূর্ণ কাজের জন্য RAG-কে একত্রিত করার চেষ্টা করছে, তাই তারা ঐতিহ্যবাহী chunk অপ্টিমাইজেশনের ক্ষেত্রে নির্ভুলতার অভাবে বাধা পাচ্ছে। PageIndex এই সীমাবদ্ধতাগুলি কাটিয়ে উঠতে চায়।
অন্যান্য খবরে, এনপিআর ৩১শে জানুয়ারি, ২০২৬ এ জানায়, গণতন্ত্রগুলি প্রায়শই দুর্বল হয়ে ফিরে আসে এবং পিছিয়ে যাওয়ার পরে আরও ভঙ্গুর হয়ে যায়। বার্মিংহাম বিশ্ববিদ্যালয়ের অধ্যাপক নিক চিজম্যানের মতে, যিনি তিন দশকের ডেটা বিশ্লেষণ করেছেন, স্বৈরাচারী শাসনের পরে গণতন্ত্র পুনরুদ্ধার হতে পারে তবে সাধারণত দীর্ঘস্থায়ী হয় না।
অতিরিক্তভাবে, হ্যাকার নিউজ স্পার্স ফাইল নিয়ে আলোচনা করেছে, এটি একটি ফাইল সিস্টেম বৈশিষ্ট্য যা "খালি" ব্লক সহ লজিক্যাল ফাইল তৈরি করতে দেয় যা লেখার আগ পর্যন্ত শারীরিকভাবে ব্যাকআপ করা হয় না। এই বৈশিষ্ট্যটি স্টোরেজ অপ্টিমাইজ করতে এবং ডেটা দক্ষতার সাথে পরিচালনা করতে ব্যবহার করা যেতে পারে। হ্যাকার নিউজ একটি গেমও দেখিয়েছে যেখানে ব্যবহারকারীরা উইকিপিডিয়া নিবন্ধ সহ প্রাণীদের একটি টাইমারের বিপরীতে তালিকাভুক্ত করে, যা ওভারল্যাপিং শব্দগুলো এড়ানোর ওপর জোর দেয়।
Discussion
AI Experts & Community
Be the first to comment