تشهد العديد من الشركات ارتفاعًا كبيرًا في فواتيرها الخاصة بواجهات برمجة تطبيقات (APIs) نماذج اللغة الكبيرة (LLM)، مما أدى إلى البحث عن حلول فعالة من حيث التكلفة. وجد سرينيفاس ريدي هوليبيدو ريدي، في تحليل حديث، أن جزءًا كبيرًا من هذه التكاليف ينبع من المستخدمين الذين يطرحون نفس الأسئلة بطرق مختلفة.
لاحظ ريدي زيادة شهرية بنسبة 30٪ في فاتورة واجهة برمجة تطبيقات LLM الخاصة بشركته، على الرغم من أن حركة المرور لم تزد بالمعدل نفسه. كشف تحليل سجلات الاستعلام أن المستخدمين كانوا يطرحون أسئلة متطابقة دلاليًا باستخدام صياغة متنوعة. على سبيل المثال، أدت استعلامات مثل "ما هي سياسة الإرجاع الخاصة بك؟" و "كيف يمكنني إرجاع شيء ما؟" و "هل يمكنني استرداد أموالي؟" إلى تشغيل مكالمات منفصلة إلى LLM، يتحمل كل منها تكاليف واجهة برمجة التطبيقات الكاملة.
أثبت التخزين المؤقت التقليدي المطابق تمامًا، والذي يستخدم نص الاستعلام كمفتاح ذاكرة التخزين المؤقت، أنه غير فعال في معالجة هذه المشكلة. وجد ريدي أن التخزين المؤقت المطابق تمامًا التقط 18 مكالمة فقط من هذه المكالمات الزائدة، حيث تجاوزت الاختلافات الطفيفة في الصياغة ذاكرة التخزين المؤقت تمامًا.
لمكافحة ذلك، قام ريدي بتطبيق التخزين المؤقت الدلالي، وهي تقنية تركز على معنى الاستعلامات بدلاً من صياغتها الدقيقة. أدى هذا النهج إلى زيادة معدل الوصول إلى ذاكرة التخزين المؤقت إلى 67٪، مما أدى إلى خفض تكاليف واجهة برمجة تطبيقات LLM بنسبة 73٪. يحدد التخزين المؤقت الدلالي النية الكامنة وراء الاستعلام ويسترجع الاستجابة المقابلة من ذاكرة التخزين المؤقت، حتى لو كانت الصياغة مختلفة.
يمثل الارتفاع في تكاليف واجهة برمجة تطبيقات LLM مصدر قلق متزايد للشركات التي تدمج الذكاء الاصطناعي في سير عملها. مع تزايد انتشار LLM، يعد تحسين استخدام واجهة برمجة التطبيقات أمرًا بالغ الأهمية للحفاظ على الكفاءة من حيث التكلفة. يمثل التخزين المؤقت الدلالي حلاً واعدًا، ولكن تنفيذه الناجح يتطلب دراسة متأنية لدقائق اللغة وسلوك المستخدم. وأشار ريدي إلى أن عمليات التنفيذ الساذجة غالبًا ما تفوت الجوانب الرئيسية للمشكلة. من المتوقع أن يلعب المزيد من البحث والتطوير في تقنيات التخزين المؤقت الدلالي دورًا مهمًا في إدارة تكاليف LLM في المستقبل.
Discussion
Join the conversation
Be the first to comment