कई कंपनियाँ लार्ज लैंग्वेज मॉडल (LLM) API के उपयोग के लिए अप्रत्याशित रूप से उच्च बिलों का सामना कर रही हैं, जिससे लागत प्रभावी समाधानों की तलाश बढ़ गई है। श्रीनिवास रेड्डी हुलेबेडु रेड्डी ने क्वेरी लॉग के हालिया विश्लेषण में पाया कि LLM लागत का एक महत्वपूर्ण हिस्सा उपयोगकर्ताओं द्वारा अलग-अलग तरीकों से एक ही प्रश्न पूछने से उत्पन्न हुआ।
रेड्डी ने पाया कि उनकी कंपनी के LLM API पर ट्रैफ़िक बढ़ रहा था, लेकिन लागत 30% महीने-दर-महीने की अस्थिर दर से बढ़ रही थी। उन्होंने समझाया कि उपयोगकर्ता सिमेंटिक रूप से समान क्वेरी सबमिट कर रहे थे, जैसे "आपकी रिटर्न पॉलिसी क्या है?", "मैं कुछ कैसे वापस करूँ?", और "क्या मुझे रिफंड मिल सकता है?", जिन्हें LLM द्वारा अद्वितीय अनुरोधों के रूप में संसाधित किया जा रहा था, जिनमें से प्रत्येक पर पूर्ण API लागत लग रही थी।
पारंपरिक, सटीक-मिलान कैशिंग, जो क्वेरी टेक्स्ट को कैश कुंजी के रूप में उपयोग करती है, इस अतिरेक को दूर करने में अप्रभावी साबित हुई। रेड्डी ने कहा, "सटीक-मिलान कैशिंग ने इन अनावश्यक कॉलों में से केवल 18 को ही पकड़ा।" "वही सिमेंटिक प्रश्न, अलग ढंग से वाक्यांशित, पूरी तरह से कैश को बायपास कर गया।"
इससे निपटने के लिए, रेड्डी ने सिमेंटिक कैशिंग लागू किया, एक ऐसी तकनीक जो क्वेरी के सटीक शब्दों के बजाय उनके अर्थ पर ध्यान केंद्रित करती है। इस दृष्टिकोण से कैश हिट दर में उल्लेखनीय सुधार हुआ, जो 67% तक पहुँच गया, और अंततः LLM API लागत में 73% की कमी आई।
सिमेंटिक कैशिंग, सटीक-मिलान कैशिंग की सीमाओं को उपयोगकर्ता की क्वेरी के पीछे के इरादे को समझकर दूर करता है। केवल क्वेरी के टेक्स्ट की तुलना करने के बजाय, सिमेंटिक कैशिंग एम्बेडिंग या सिमेंटिक समानता एल्गोरिदम जैसी तकनीकों का उपयोग यह निर्धारित करने के लिए करता है कि क्या पहले से ही एक समान प्रश्न का उत्तर दिया गया है। यदि कैश में सिमेंटिक रूप से समान क्वेरी मौजूद है, तो सिस्टम कैश्ड प्रतिक्रिया को पुनः प्राप्त कर सकता है, जिससे LLM को फिर से कॉल करने की आवश्यकता नहीं होती है।
LLM API लागत में वृद्धि AI को अपने वर्कफ़्लो में एकीकृत करने वाले व्यवसायों के लिए एक बढ़ती चिंता है। जैसे-जैसे LLM अधिक प्रचलित होते जाते हैं, उनके उपयोग को अनुकूलित करना और लागत को कम करना महत्वपूर्ण होगा। सिमेंटिक कैशिंग इस चुनौती का समाधान करने के लिए एक आशाजनक दृष्टिकोण का प्रतिनिधित्व करता है, लेकिन, जैसा कि रेड्डी बताते हैं, सफल कार्यान्वयन के लिए भाषा और उपयोगकर्ता व्यवहार की बारीकियों पर सावधानीपूर्वक विचार करने की आवश्यकता होती है।
Discussion
Join the conversation
Be the first to comment