बड़े भाषा मॉडल (LLM) API की लागत को सिमेंटिक कैशिंग लागू करके काफी कम किया जा सकता है, ऐसा श्रीनिवास रेड्डी हुलेबेडु रेड्डी के अनुसार है, जिन्होंने पाया कि उनकी कंपनी का LLM API बिल महीने-दर-महीने 30% बढ़ रहा था। रेड्डी ने पाया कि उपयोगकर्ता एक ही प्रश्न को अलग-अलग तरीकों से पूछ रहे थे, जिससे LLM को अनावश्यक कॉल जा रही थीं और लागत बढ़ रही थी।
क्वेरी लॉग के रेड्डी के विश्लेषण से पता चला कि "आपकी रिटर्न पॉलिसी क्या है?", "मैं कुछ कैसे वापस करूँ?", और "क्या मुझे रिफंड मिल सकता है?" जैसे प्रश्नों को अलग-अलग संसाधित किया जा रहा था, जिससे लगभग समान प्रतिक्रियाएँ उत्पन्न हो रही थीं और प्रत्येक के लिए पूरी API लागत लग रही थी। पारंपरिक सटीक-मिलान कैशिंग, जो क्वेरी टेक्स्ट को कैश कुंजी के रूप में उपयोग करती है, ने इन अनावश्यक कॉलों में से केवल 18% को ही पकड़ा। रेड्डी ने कहा, "एक ही सिमेंटिक प्रश्न, अलग तरह से वाक्यांशित होने पर, पूरी तरह से कैश को दरकिनार कर देता है।"
इस समस्या को हल करने के लिए, रेड्डी ने सिमेंटिक कैशिंग लागू की, जो सटीक शब्दों के बजाय प्रश्नों के अर्थ पर ध्यान केंद्रित करती है। इस दृष्टिकोण ने कैश हिट दर को 67% तक बढ़ा दिया, जिसके परिणामस्वरूप LLM API लागत में 73% की कमी आई। सिमेंटिक कैशिंग में उपयोगकर्ता के प्रश्न के पीछे के इरादे को समझना और कैश से उपयुक्त प्रतिक्रिया प्राप्त करना शामिल है, भले ही प्रश्न को अलग तरह से वाक्यांशित किया गया हो।
सटीक-मिलान कैशिंग की सीमाएँ समान क्वेरी टेक्स्ट पर इसकी निर्भरता से उत्पन्न होती हैं। जैसा कि रेड्डी ने समझाया, उपयोगकर्ता शायद ही कभी प्रश्नों को बिल्कुल उसी तरह से वाक्यांशित करते हैं। 100,000 उत्पादन प्रश्नों के उनके विश्लेषण ने उपयोगकर्ता भाषा में परिवर्तनशीलता को उजागर किया, जिससे सटीक-मिलान कैशिंग अनावश्यक प्रश्नों को पकड़ने के लिए अप्रभावी हो गई।
सिमेंटिक कैशिंग LLM API उपयोग को अनुकूलित करने में एक महत्वपूर्ण प्रगति का प्रतिनिधित्व करता है। प्रश्नों के अर्थ पर ध्यान केंद्रित करके, यह अनावश्यक कॉलों के बहुत बड़े प्रतिशत को पकड़ सकता है, जिससे पर्याप्त लागत बचत होती है। हालाँकि, सिमेंटिक कैशिंग को लागू करने के लिए भाषा की बारीकियों और उपयोगकर्ता के इरादे को समझने के लिए मजबूत तरीकों के विकास पर सावधानीपूर्वक विचार करने की आवश्यकता होती है।
Discussion
Join the conversation
Be the first to comment