बड़े भाषा मॉडल (LLM) API की लागत को सिमेंटिक कैशिंग लागू करके काफी कम किया जा सकता है, ऐसा श्रीनिवास रेड्डी हुलेबेडु रेड्डी के अनुसार है, जिन्होंने पाया कि उनकी कंपनी का LLM API बिल 30% महीने-दर-महीने बढ़ रहा था, जबकि ट्रैफिक उसी दर से नहीं बढ़ रहा था। रेड्डी ने पाया कि उपयोगकर्ता एक ही प्रश्न को अलग-अलग तरीकों से पूछ रहे थे, जिसके परिणामस्वरूप LLM को अनावश्यक कॉल किए जा रहे थे और अनावश्यक API लागत लग रही थी।
रेड्डी के क्वेरी लॉग के विश्लेषण से पता चला कि उपयोगकर्ता अक्सर एक ही प्रश्न को अलग-अलग शब्दों में पूछते थे। उदाहरण के लिए, "आपकी रिटर्न पॉलिसी क्या है?", "मैं कुछ कैसे वापस करूँ?", और "क्या मुझे रिफंड मिल सकता है?" जैसे प्रश्नों से LLM से लगभग समान प्रतिक्रियाएँ मिलीं, फिर भी प्रत्येक प्रश्न को अलग-अलग संसाधित किया गया, जिससे पूरी API लागत लगी।
पारंपरिक, सटीक-मिलान कैशिंग, जो क्वेरी टेक्स्ट को कैश कुंजी के रूप में उपयोग करती है, इस मुद्दे को संबोधित करने में अप्रभावी साबित हुई। रेड्डी ने कहा, "सटीक-मिलान कैशिंग ने इन अनावश्यक कॉलों में से केवल 18% को ही पकड़ा।" "एक ही सिमेंटिक प्रश्न, जिसे अलग ढंग से कहा गया, पूरी तरह से कैश को बायपास कर गया।"
इस सीमा को दूर करने के लिए, रेड्डी ने सिमेंटिक कैशिंग लागू की, जो प्रश्नों के सटीक शब्दों के बजाय उनके अर्थ पर ध्यान केंद्रित करती है। इस दृष्टिकोण ने कैश हिट दर को 67% तक बढ़ा दिया, जिसके परिणामस्वरूप LLM API लागत में 73% की कमी आई। सिमेंटिक कैशिंग समान अर्थ वाले प्रश्नों की पहचान करती है और LLM को अनावश्यक कॉल से बचने के लिए कैश से संबंधित प्रतिक्रिया प्राप्त करती है।
यह विकास उपयोगकर्ता व्यवहार को समझने और LLM API लागतों को प्रभावी ढंग से प्रबंधित करने के लिए कैशिंग रणनीतियों को अनुकूलित करने के महत्व पर प्रकाश डालता है। जैसे-जैसे LLM विभिन्न अनुप्रयोगों में तेजी से एकीकृत होते जा रहे हैं, सिमेंटिक कैशिंग उन संगठनों के लिए एक मूल्यवान समाधान प्रदान करता है जो अपनी सेवाओं की गुणवत्ता से समझौता किए बिना खर्चों को कम करना चाहते हैं।
Discussion
Join the conversation
Be the first to comment