Многие компании наблюдают резкий рост счетов за интерфейсы прикладного программирования (API) больших языковых моделей (LLM), что стимулирует поиск экономически эффективных решений. Шринивас Редди Хулебиду Редди в своем недавнем анализе обнаружил, что значительная часть этих затрат связана с тем, что пользователи задают одни и те же вопросы разными способами.
Редди отметил 30-процентный ежемесячный рост счетов за LLM API в своей компании, несмотря на то, что трафик не увеличивался такими же темпами. Анализ журналов запросов показал, что пользователи задавали семантически идентичные вопросы, используя различные формулировки. Например, запросы, такие как «Каковы ваши правила возврата?», «Как мне что-нибудь вернуть?» и «Могу ли я получить возмещение?», вызывали отдельные обращения к LLM, каждое из которых влекло за собой полную стоимость API.
Традиционное кэширование с точным соответствием, которое использует текст запроса в качестве ключа кэша, оказалось неэффективным для решения этой проблемы. Редди обнаружил, что кэширование с точным соответствием зафиксировало только 18 из этих избыточных вызовов, поскольку незначительные вариации в формулировках полностью обходили кэш.
Чтобы бороться с этим, Редди внедрил семантическое кэширование, метод, который фокусируется на значении запросов, а не на их точном формулировании. Этот подход увеличил коэффициент попадания в кэш до 67%, что привело к снижению затрат на LLM API на 73%. Семантическое кэширование определяет основной смысл запроса и извлекает соответствующий ответ из кэша, даже если формулировка отличается.
Рост затрат на LLM API вызывает все большую обеспокоенность у предприятий, интегрирующих ИИ в свои рабочие процессы. Поскольку LLM становятся все более распространенными, оптимизация использования API имеет решающее значение для поддержания экономической эффективности. Семантическое кэширование представляет собой многообещающее решение, но его успешная реализация требует тщательного учета нюансов языка и поведения пользователей. Редди отметил, что наивные реализации часто упускают из виду ключевые аспекты проблемы. Ожидается, что дальнейшие исследования и разработки в области методов семантического кэширования будут играть значительную роль в управлении затратами на LLM в будущем.
Discussion
Join the conversation
Be the first to comment