Стоимость API больших языковых моделей (LLM) можно значительно снизить, внедрив семантическое кэширование, как обнаружил Сриниваса Редди Хулебеду Редди, заметивший, что счет его компании за API LLM растет на 30% ежемесячно. Редди выяснил, что пользователи задают одни и те же вопросы разными способами, что приводит к избыточным вызовам LLM и увеличению затрат.
Анализ журналов запросов, проведенный Редди, показал, что такие вопросы, как «Каковы ваши условия возврата?», «Как мне вернуть товар?» и «Могу ли я получить возмещение?», обрабатывались отдельно, генерируя почти идентичные ответы и влекущие за собой полную стоимость API для каждого из них. Традиционное кэширование точного соответствия, использующее текст запроса в качестве ключа кэша, фиксировало только 18% этих избыточных вызовов. «Один и тот же семантический вопрос, сформулированный по-разному, полностью обходил кэш», — заявил Редди.
Чтобы решить эту проблему, Редди внедрил семантическое кэширование, которое фокусируется на смысле запросов, а не на точной формулировке. Этот подход увеличил частоту попаданий в кэш до 67%, что привело к снижению затрат на API LLM на 73%. Семантическое кэширование предполагает понимание намерения, стоящего за запросом пользователя, и извлечение соответствующего ответа из кэша, даже если запрос сформулирован по-другому.
Ограничения кэширования точного соответствия проистекают из его зависимости от идентичного текста запроса. Как объяснил Редди, пользователи редко формулируют вопросы совершенно одинаково. Его анализ 100 000 производственных запросов выявил изменчивость языка пользователей, что делает кэширование точного соответствия неэффективным для захвата избыточных запросов.
Семантическое кэширование представляет собой значительный прогресс в оптимизации использования API LLM. Сосредоточившись на смысле запросов, оно может захватить гораздо больший процент избыточных вызовов, что приведет к существенной экономии средств. Однако внедрение семантического кэширования требует тщательного учета нюансов языка и разработки надежных методов понимания намерений пользователя.
Discussion
Join the conversation
Be the first to comment