বৃহৎ ভাষা মডেল (LLM) API-এর খরচ উল্লেখযোগ্যভাবে কমানো যেতে পারে সিমান্টিক ক্যাশিং প্রয়োগ করার মাধ্যমে। শ্রীনিবাস রেড্ডি হুলেবেডু রেড্ডি জানান যে তার কোম্পানির LLM API বিল প্রতি মাসে ৩০% হারে বাড়ছিল, যদিও সেই হারে ট্র্যাফিক বাড়েনি। রেড্ডি আবিষ্কার করেন যে ব্যবহারকারীরা একই প্রশ্ন বিভিন্নভাবে করছেন, যার ফলে LLM-এ অতিরিক্ত কল যাচ্ছে এবং অপ্রয়োজনীয় API খরচ হচ্ছে।
রেড্ডির কোয়েরি লগ বিশ্লেষণের মাধ্যমে জানা যায় যে ব্যবহারকারীরা প্রায়শই একই প্রশ্ন অন্যভাবে করছেন। উদাহরণস্বরূপ, "আপনার রিটার্ন পলিসি কী?", "আমি কীভাবে কিছু ফেরত দেব?", এবং "আমি কি রিফান্ড পেতে পারি?" এই ধরনের প্রশ্নগুলির উত্তরে LLM প্রায় একই রকম সাড়া দেয়, তবুও প্রতিটি প্রশ্ন আলাদাভাবে প্রক্রিয়া করা হয়, যার ফলে পুরো API-এর খরচ লাগে।
ঐতিহ্যবাহী, হুবহু-মিল ক্যাশিং, যা কোয়েরি টেক্সটকে ক্যাশ কী হিসাবে ব্যবহার করে, এই সমস্যা সমাধানে অকার্যকর প্রমাণিত হয়েছে। রেড্ডি বলেন, "হুবহু-মিল ক্যাশিং এই অতিরিক্ত কলগুলির মধ্যে মাত্র ১৮% ধরতে পেরেছে।" "একই সিমান্টিক প্রশ্ন, ভিন্নভাবে বলা হলে, ক্যাশকে সম্পূর্ণরূপে এড়িয়ে যায়।"
এই সীমাবদ্ধতা কাটিয়ে ওঠার জন্য, রেড্ডি সিমান্টিক ক্যাশিং প্রয়োগ করেন, যা কোয়েরিগুলির হুবহু শব্দের চেয়ে তাদের অর্থের উপর বেশি মনোযোগ দেয়। এই পদ্ধতির কারণে ক্যাশ হিট রেট ৬৭% বেড়েছে, যার ফলে LLM API-এর খরচ ৭৩% কমেছে। সিমান্টিক ক্যাশিং একই ধরনের অর্থ আছে এমন কোয়েরিগুলি চিহ্নিত করে এবং ক্যাশ থেকে সেই অনুযায়ী সাড়া পুনরুদ্ধার করে, LLM-এ অতিরিক্ত কল করা এড়িয়ে যায়।
এই উন্নতি ব্যবহারকারীর আচরণ বোঝা এবং LLM API-এর খরচ কার্যকরভাবে পরিচালনা করার জন্য ক্যাশিং কৌশল অপ্টিমাইজ করার গুরুত্ব তুলে ধরে। যেহেতু LLMগুলি ক্রমবর্ধমানভাবে বিভিন্ন অ্যাপ্লিকেশনে একত্রিত হচ্ছে, তাই সিমান্টিক ক্যাশিং সেই সংস্থাগুলির জন্য একটি মূল্যবান সমাধান যারা তাদের পরিষেবার গুণমানকে ক্ষতিগ্রস্ত না করে খরচ কমাতে চাইছে।
Discussion
Join the conversation
Be the first to comment