يشهد العديد من الشركات ارتفاعًا كبيرًا في فواتير واجهات برمجة تطبيقات (APIs) نماذج اللغة الكبيرة (LLM)، مدفوعًا بالاستعلامات المتكررة، وفقًا لما ذكره سرينيفاسا ريدي هوليبيدو ريدي، وهو مطور تطبيقات الذكاء الاصطناعي. اكتشف ريدي أن المستخدمين غالبًا ما يطرحون نفس الأسئلة بطرق مختلفة، مما يتسبب في قيام نموذج اللغة الكبير (LLM) بمعالجة كل صيغة على حدة وتحمل تكاليف واجهة برمجة التطبيقات (API) كاملة لكل منها.
كشف تحليل ريدي لسجلات الاستعلامات أن المستخدمين كانوا يطرحون نفس الأسئلة مرارًا وتكرارًا باستخدام صياغة مختلفة. على سبيل المثال، فإن أسئلة مثل "ما هي سياسة الإرجاع الخاصة بكم؟" و "كيف يمكنني إرجاع شيء ما؟" و "هل يمكنني استرداد أموالي؟" أثارت جميعها ردودًا متطابقة تقريبًا من نموذج اللغة الكبير (LLM)، ولكن كل منها أدى إلى استدعاء منفصل لواجهة برمجة التطبيقات (API).
ثبت أن التخزين المؤقت التقليدي المطابق تمامًا، والذي يستخدم نص الاستعلام كمفتاح ذاكرة التخزين المؤقت، غير فعال في معالجة هذه المشكلة. وجد ريدي أن التخزين المؤقت المطابق تمامًا التقط 18 مكالمة فقط من هذه المكالمات الزائدة من أصل 100,000 استعلام إنتاجي. وأوضح ريدي: "إن السؤال الدلالي نفسه، المصاغ بشكل مختلف، تجاوز ذاكرة التخزين المؤقت تمامًا".
لمكافحة ذلك، قام ريدي بتطبيق التخزين المؤقت الدلالي، وهي تقنية تخزن الردود مؤقتًا بناءً على معنى الاستعلام وليس على الصياغة الدقيقة. أدى هذا النهج إلى زيادة معدل الوصول إلى ذاكرة التخزين المؤقت إلى 67٪، مما أدى إلى انخفاض بنسبة 73٪ في تكاليف واجهة برمجة تطبيقات (API) نموذج اللغة الكبير (LLM). يعالج التخزين المؤقت الدلالي المشكلة الأساسية المتمثلة في قيام المستخدمين بصياغة نفس السؤال بطرق متعددة.
يمثل التخزين المؤقت الدلالي تقدمًا كبيرًا على طرق التخزين المؤقت التقليدية في سياق نماذج اللغة الكبيرة (LLMs). يعتمد التخزين المؤقت التقليدي على تطابق تام بين الاستعلام الوارد والاستعلام المخزن مؤقتًا. هذه الطريقة بسيطة التنفيذ ولكنها تفشل في التقاط الفروق الدقيقة في اللغة البشرية، حيث يمكن التعبير عن نفس النية بعدة طرق. من ناحية أخرى، يستخدم التخزين المؤقت الدلالي تقنيات مثل التضمينات ومقاييس التشابه لتحديد ما إذا كان الاستعلام الجديد مشابهًا دلاليًا لاستعلام مخزن مؤقتًا مسبقًا. إذا تجاوز التشابه عتبة محددة مسبقًا، فسيتم إرجاع الاستجابة المخزنة مؤقتًا، مما يتجنب استدعاء واجهة برمجة تطبيقات (API) مكلف.
يسلط تطوير التخزين المؤقت الدلالي الضوء على الحاجة المتزايدة إلى طرق فعالة وفعالة من حيث التكلفة لاستخدام نماذج اللغة الكبيرة (LLMs). مع تزايد دمج نماذج اللغة الكبيرة (LLMs) في مختلف التطبيقات، تصبح إدارة تكاليف واجهة برمجة التطبيقات (API) مصدر قلق بالغ للشركات. يقدم التخزين المؤقت الدلالي حلاً واعدًا عن طريق تقليل التكرار وتحسين استخدام الموارد. يمكن أن يؤدي المزيد من البحث والتطوير في هذا المجال إلى استراتيجيات تخزين مؤقت أكثر تطوراً تقلل بشكل أكبر من تكاليف واجهة برمجة تطبيقات (API) نموذج اللغة الكبير (LLM) وتحسن الأداء العام.
Discussion
Join the conversation
Be the first to comment