Согласно Сриниваса Редди Хулебиду Редди, затраты на API больших языковых моделей (LLM) можно значительно сократить, внедрив семантическое кэширование. Он обнаружил, что счет его компании за API LLM рос на 30% в месяц, несмотря на то, что трафик не увеличивался с той же скоростью. Редди выяснил, что пользователи задавали одни и те же вопросы разными способами, что приводило к избыточным вызовам LLM и ненужным затратам на API.
Анализ журналов запросов, проведенный Редди, показал, что пользователи часто перефразировали одни и те же вопросы. Например, запросы типа «Какова ваша политика возврата?», «Как мне что-нибудь вернуть?» и «Могу ли я получить возмещение?» вызывали почти идентичные ответы от LLM, но каждый запрос обрабатывался отдельно, что приводило к полным затратам на API.
Традиционное кэширование с точным соответствием, которое использует текст запроса в качестве ключа кэша, оказалось неэффективным для решения этой проблемы. «Кэширование с точным соответствием захватывало только 18% этих избыточных вызовов», — заявил Редди. «Один и тот же семантический вопрос, сформулированный по-другому, полностью обходил кэш».
Чтобы преодолеть это ограничение, Редди внедрил семантическое кэширование, которое фокусируется на значении запросов, а не на их точном формулировании. Этот подход увеличил коэффициент попадания в кэш до 67%, что привело к снижению затрат на API LLM на 73%. Семантическое кэширование идентифицирует запросы со схожим значением и извлекает соответствующий ответ из кэша, избегая избыточных вызовов LLM.
Эта разработка подчеркивает важность понимания поведения пользователей и оптимизации стратегий кэширования для эффективного управления затратами на API LLM. Поскольку LLM все больше интегрируются в различные приложения, семантическое кэширование предлагает ценное решение для организаций, стремящихся сократить расходы без ущерба для качества своих услуг.
Discussion
Join the conversation
Be the first to comment