Многие компании сталкиваются с неожиданно высокими счетами за использование API больших языковых моделей (LLM), что стимулирует поиск экономически эффективных решений. Сриниваса Редди Хулебиду Редди в недавнем анализе журналов запросов обнаружил, что значительная часть затрат на LLM связана с тем, что пользователи задают одни и те же вопросы разными способами.
Редди обнаружил, что, хотя трафик к API LLM его компании рос, затраты увеличивались неустойчивыми темпами – 30% в месяц. Он объяснил, что пользователи отправляли семантически идентичные запросы, такие как «Какова ваша политика возврата?», «Как мне что-нибудь вернуть?» и «Могу ли я получить возмещение?», которые все обрабатывались LLM как уникальные запросы, каждый из которых влек за собой полную стоимость API.
Традиционное кэширование с точным соответствием, которое использует текст запроса в качестве ключа кэша, оказалось неэффективным для устранения этой избыточности. «Кэширование с точным соответствием зафиксировало только 18 из этих избыточных вызовов, – отметил Редди. – Один и тот же семантический вопрос, сформулированный по-другому, полностью обходил кэш».
Чтобы бороться с этим, Редди внедрил семантическое кэширование – метод, который фокусируется на смысле запросов, а не на их точном формулировании. Этот подход привел к значительному улучшению коэффициента попадания в кэш, достигнув 67%, и в конечном итоге снизил затраты на API LLM на 73%.
Семантическое кэширование устраняет ограничения кэширования с точным соответствием, понимая намерение, стоящее за запросом пользователя. Вместо простого сравнения текста запроса семантическое кэширование использует такие методы, как встраивание или алгоритмы семантической близости, чтобы определить, был ли уже дан ответ на аналогичный вопрос. Если в кэше существует семантически похожий запрос, система может извлечь кэшированный ответ, избегая необходимости повторного вызова LLM.
Рост затрат на API LLM вызывает все большую обеспокоенность у предприятий, интегрирующих ИИ в свои рабочие процессы. По мере того, как LLM становятся все более распространенными, оптимизация их использования и снижение затрат будут иметь решающее значение. Семантическое кэширование представляет собой один из многообещающих подходов к решению этой проблемы, но, как отмечает Редди, успешная реализация требует тщательного учета нюансов языка и поведения пользователей.
Discussion
Join the conversation
Be the first to comment