يمكن تخفيض تكاليف واجهات برمجة تطبيقات نماذج اللغة الكبيرة (LLM) بشكل كبير عن طريق تطبيق التخزين المؤقت الدلالي، وفقًا لما ذكره سرينيفاسا ريدي هوليبيدو ريدي، الذي اكتشف أن فاتورة واجهة برمجة تطبيقات LLM الخاصة بشركته كانت تنمو بنسبة 30٪ شهريًا. اكتشف ريدي أن المستخدمين كانوا يطرحون نفس الأسئلة بطرق مختلفة، مما أدى إلى مكالمات زائدة إلى LLM وزيادة التكاليف.
كشف تحليل ريدي لسجلات الاستعلام أن أسئلة مثل "ما هي سياسة الإرجاع الخاصة بك؟" و "كيف يمكنني إرجاع شيء ما؟" و "هل يمكنني استرداد أموالي؟" كانت تتم معالجتها جميعًا بشكل منفصل، مما أدى إلى إنشاء استجابات متطابقة تقريبًا وتكبد تكاليف واجهة برمجة التطبيقات الكاملة لكل منها. التخزين المؤقت التقليدي المطابق تمامًا، والذي يستخدم نص الاستعلام كمفتاح ذاكرة التخزين المؤقت، لم يلتقط سوى 18٪ من هذه المكالمات الزائدة. صرح ريدي قائلاً: "السؤال الدلالي نفسه، بصياغة مختلفة، تجاوز ذاكرة التخزين المؤقت تمامًا".
لمعالجة هذه المشكلة، قام ريدي بتطبيق التخزين المؤقت الدلالي، الذي يركز على معنى الاستعلامات بدلاً من الصياغة الدقيقة. أدى هذا النهج إلى زيادة معدل الوصول إلى ذاكرة التخزين المؤقت إلى 67٪، مما أدى إلى تخفيض بنسبة 73٪ في تكاليف واجهة برمجة تطبيقات LLM. يتضمن التخزين المؤقت الدلالي فهم النية الكامنة وراء استعلام المستخدم واسترجاع الاستجابة المناسبة من ذاكرة التخزين المؤقت، حتى لو تمت صياغة الاستعلام بشكل مختلف.
تنبع قيود التخزين المؤقت المطابق تمامًا من اعتماده على نص الاستعلام المتطابق. كما أوضح ريدي، نادرًا ما يصوغ المستخدمون الأسئلة بنفس الطريقة تمامًا. أبرز تحليله لـ 100,000 استعلام إنتاجي التباين في لغة المستخدم، مما يجعل التخزين المؤقت المطابق تمامًا غير فعال في التقاط الاستعلامات الزائدة.
يمثل التخزين المؤقت الدلالي تقدمًا كبيرًا في تحسين استخدام واجهة برمجة تطبيقات LLM. من خلال التركيز على معنى الاستعلامات، يمكنه التقاط نسبة أكبر بكثير من المكالمات الزائدة، مما يؤدي إلى توفير كبير في التكاليف. ومع ذلك، يتطلب تطبيق التخزين المؤقت الدلالي دراسة متأنية لدقائق اللغة وتطوير طرق قوية لفهم نية المستخدم.
Discussion
Join the conversation
Be the first to comment