Многие компании наблюдают взрывной рост счетов за интерфейсы прикладного программирования (API) больших языковых моделей (LLM) из-за избыточных запросов, как утверждает Сриниваса Редди Хулебиду Редди, разработчик AI-приложений. Редди обнаружил, что пользователи часто задают одни и те же вопросы разными способами, что заставляет LLM обрабатывать каждый вариант отдельно и нести полные затраты на API для каждого из них.
Анализ журналов запросов, проведенный Редди, показал, что пользователи неоднократно задавали одни и те же вопросы, используя разные формулировки. Например, вопросы типа «Какие у вас условия возврата?», «Как мне вернуть товар?» и «Могу ли я получить возмещение?» вызывали практически идентичные ответы от LLM, но каждый из них запускал отдельный вызов API.
Традиционное кэширование с точным соответствием, которое использует текст запроса в качестве ключа кэша, оказалось неэффективным для решения этой проблемы. Редди обнаружил, что кэширование с точным соответствием зафиксировало только 18 из этих избыточных вызовов из 100 000 производственных запросов. «Один и тот же семантический вопрос, сформулированный по-разному, полностью обходил кэш», — пояснил Редди.
Для борьбы с этим Редди внедрил семантическое кэширование — метод, который кэширует ответы на основе значения запроса, а не точной формулировки. Этот подход увеличил коэффициент попадания в кэш до 67%, что привело к снижению затрат на LLM API на 73%. Семантическое кэширование решает основную проблему, когда пользователи формулируют один и тот же вопрос разными способами.
Семантическое кэширование представляет собой значительный прогресс по сравнению с традиционными методами кэширования в контексте LLM. Традиционное кэширование основано на точном соответствии между входящим запросом и кэшированным запросом. Этот метод прост в реализации, но не учитывает нюансы человеческого языка, где одно и то же намерение может быть выражено множеством способов. Семантическое кэширование, с другой стороны, использует такие методы, как встраивание и метрики сходства, чтобы определить, является ли новый запрос семантически похожим на ранее кэшированный запрос. Если сходство превышает заданный порог, возвращается кэшированный ответ, что позволяет избежать дорогостоящего вызова API.
Разработка семантического кэширования подчеркивает растущую потребность в эффективных и экономичных методах использования LLM. По мере того, как LLM все больше интегрируются в различные приложения, управление затратами на API становится критически важной задачей для бизнеса. Семантическое кэширование предлагает многообещающее решение, сокращая избыточность и оптимизируя использование ресурсов. Дальнейшие исследования и разработки в этой области могут привести к созданию еще более сложных стратегий кэширования, которые еще больше минимизируют затраты на LLM API и улучшат общую производительность.
Discussion
Join the conversation
Be the first to comment