يمكن خفض تكاليف واجهات برمجة تطبيقات نماذج اللغة الكبيرة (LLM) بشكل كبير عن طريق تطبيق التخزين المؤقت الدلالي، وفقًا لما ذكره سرينيفاسا ريدي هوليبيدو ريدي، الذي وجد أن فاتورة واجهة برمجة تطبيقات LLM لشركته كانت تنمو بنسبة 30٪ شهريًا على أساس شهري على الرغم من عدم زيادة حركة المرور بنفس المعدل. اكتشف ريدي أن المستخدمين كانوا يطرحون نفس الأسئلة بطرق مختلفة، مما أدى إلى مكالمات زائدة إلى LLM وتكبد تكاليف غير ضرورية لواجهة برمجة التطبيقات.
كشف تحليل ريدي لسجلات الاستعلامات أن المستخدمين غالبًا ما يعيدون صياغة نفس الأسئلة. على سبيل المثال، فإن الاستعلامات مثل "ما هي سياسة الإرجاع الخاصة بك؟" و "كيف يمكنني إرجاع شيء ما؟" و "هل يمكنني استرداد أموالي؟" كلها أثارت استجابات متطابقة تقريبًا من LLM، ولكن تمت معالجة كل استعلام على حدة، مما أدى إلى تكبد تكاليف واجهة برمجة التطبيقات الكاملة.
ثبت أن التخزين المؤقت التقليدي المطابق تمامًا، والذي يستخدم نص الاستعلام كمفتاح ذاكرة التخزين المؤقت، غير فعال في معالجة هذه المشكلة. صرح ريدي: "التقط التخزين المؤقت المطابق تمامًا 18٪ فقط من هذه المكالمات الزائدة". "نفس السؤال الدلالي، بصياغة مختلفة، تجاوز ذاكرة التخزين المؤقت تمامًا."
للتغلب على هذا القيد، قام ريدي بتطبيق التخزين المؤقت الدلالي، الذي يركز على معنى الاستعلامات بدلاً من صياغتها الدقيقة. أدى هذا النهج إلى زيادة معدل الوصول إلى ذاكرة التخزين المؤقت إلى 67٪، مما أدى إلى خفض تكاليف واجهة برمجة تطبيقات LLM بنسبة 73٪. يحدد التخزين المؤقت الدلالي الاستعلامات ذات المعاني المتشابهة ويسترجع الاستجابة المقابلة من ذاكرة التخزين المؤقت، مما يتجنب المكالمات الزائدة إلى LLM.
يسلط هذا التطوير الضوء على أهمية فهم سلوك المستخدم وتحسين استراتيجيات التخزين المؤقت لإدارة تكاليف واجهة برمجة تطبيقات LLM بشكل فعال. مع تزايد دمج LLM في مختلف التطبيقات، يقدم التخزين المؤقت الدلالي حلاً قيمًا للمؤسسات التي تسعى إلى خفض النفقات دون المساس بجودة خدماتها.
Discussion
Join the conversation
Be the first to comment