कृत्रिम बुद्धिमत्ता (AI) एप्लीकेशन डेवलपर श्रीनिवास रेड्डी हुलेबेडु रेड्डी के अनुसार, कई कंपनियाँ बड़े भाषा मॉडल (LLM) एप्लीकेशन प्रोग्रामिंग इंटरफेस (API) के लिए अपने बिलों में भारी वृद्धि देख रही हैं, जिसका कारण अनावश्यक क्वेरी हैं। रेड्डी ने पाया कि उपयोगकर्ता अक्सर एक ही प्रश्न को अलग-अलग तरीकों से पूछते हैं, जिससे LLM प्रत्येक भिन्नता को अलग से संसाधित करता है और प्रत्येक के लिए पूरी API लागत लगती है।
रेड्डी के क्वेरी लॉग के विश्लेषण से पता चला कि उपयोगकर्ता बार-बार एक ही प्रश्न को अलग-अलग वाक्यांशों का उपयोग करके पूछ रहे थे। उदाहरण के लिए, "आपकी वापसी नीति क्या है?", "मैं कुछ कैसे वापस करूँ?", और "क्या मुझे रिफंड मिल सकता है?" जैसे प्रश्नों ने LLM से लगभग समान प्रतिक्रियाएँ प्राप्त कीं, लेकिन प्रत्येक ने एक अलग API कॉल को ट्रिगर किया।
पारंपरिक, सटीक-मिलान कैशिंग, जो क्वेरी टेक्स्ट को कैश कुंजी के रूप में उपयोग करती है, इस समस्या को हल करने में अप्रभावी साबित हुई। रेड्डी ने पाया कि सटीक-मिलान कैशिंग ने 100,000 प्रोडक्शन क्वेरी में से केवल 18 अनावश्यक कॉलों को ही पकड़ा। रेड्डी ने समझाया, "एक ही सिमेंटिक प्रश्न, जिसे अलग ढंग से वाक्यांशित किया गया, पूरी तरह से कैश को बायपास कर गया।"
इससे निपटने के लिए, रेड्डी ने सिमेंटिक कैशिंग लागू किया, एक ऐसी तकनीक जो क्वेरी के सटीक शब्दों के बजाय उसके अर्थ के आधार पर प्रतिक्रियाओं को कैश करती है। इस दृष्टिकोण ने कैश हिट दर को 67% तक बढ़ा दिया, जिसके परिणामस्वरूप LLM API लागत में 73% की कमी आई। सिमेंटिक कैशिंग उपयोगकर्ताओं द्वारा एक ही प्रश्न को कई तरीकों से वाक्यांशित करने की मूल समस्या का समाधान करता है।
सिमेंटिक कैशिंग LLM के संदर्भ में पारंपरिक कैशिंग विधियों पर एक महत्वपूर्ण प्रगति का प्रतिनिधित्व करता है। पारंपरिक कैशिंग आने वाली क्वेरी और कैश की गई क्वेरी के बीच सटीक मिलान पर निर्भर करता है। यह विधि लागू करने में सरल है लेकिन मानव भाषा की बारीकियों को पकड़ने में विफल रहती है, जहाँ एक ही इरादे को कई तरीकों से व्यक्त किया जा सकता है। दूसरी ओर, सिमेंटिक कैशिंग, यह निर्धारित करने के लिए एम्बेडिंग और समानता मेट्रिक्स जैसी तकनीकों का उपयोग करता है कि क्या कोई नई क्वेरी पहले से कैश की गई क्वेरी के समान सिमेंटिक रूप से समान है। यदि समानता एक पूर्वनिर्धारित सीमा से अधिक है, तो कैश की गई प्रतिक्रिया वापस कर दी जाती है, जिससे एक महंगी API कॉल से बचा जा सकता है।
सिमेंटिक कैशिंग का विकास LLM का उपयोग करने के लिए कुशल और लागत प्रभावी तरीकों की बढ़ती आवश्यकता को उजागर करता है। जैसे-जैसे LLM विभिन्न अनुप्रयोगों में तेजी से एकीकृत होते जा रहे हैं, API लागतों का प्रबंधन व्यवसायों के लिए एक महत्वपूर्ण चिंता बन जाता है। सिमेंटिक कैशिंग अनावश्यकता को कम करके और संसाधन उपयोग को अनुकूलित करके एक आशाजनक समाधान प्रदान करता है। इस क्षेत्र में आगे के अनुसंधान और विकास से और भी परिष्कृत कैशिंग रणनीतियाँ बन सकती हैं जो LLM API लागतों को और कम करती हैं और समग्र प्रदर्शन में सुधार करती हैं।
Discussion
Join the conversation
Be the first to comment