Многие компании сталкиваются с неожиданным ростом счетов за интерфейсы прикладного программирования (API) больших языковых моделей (LLM), что стимулирует поиск экономически эффективных решений. Сриниваса Редди Хулебиду Редди в недавнем анализе журналов запросов обнаружил, что значительная часть затрат на API LLM связана с тем, что пользователи задают одни и те же вопросы разными способами.
Редди обнаружил, что, хотя трафик к его LLM-приложению рос, счет за API увеличивался неустойчивыми темпами – на 30% в месяц. Он объяснил, что пользователи отправляли семантически идентичные запросы, такие как «Каковы ваши условия возврата?», «Как мне вернуть товар?» и «Могу ли я получить возмещение?», которые все обрабатывались LLM как уникальные запросы, каждый из которых влек за собой полную стоимость API.
Традиционное кэширование точного соответствия, которое использует текст запроса в качестве ключа кэша, оказалось неэффективным для устранения этой избыточности. «Кэширование точного соответствия зафиксировало только 18 из этих избыточных вызовов», – заявил Редди. «Один и тот же семантический вопрос, сформулированный по-другому, полностью обходил кэш».
Чтобы бороться с этим, Редди внедрил семантическое кэширование – метод, который фокусируется на значении запросов, а не на их точном формулировании. Этот подход привел к значительному улучшению коэффициента попадания в кэш, достигнув 67%, и в конечном итоге снизил затраты на API LLM на 73%. Семантическое кэширование идентифицирует и сохраняет ответы на семантически похожие запросы, позволяя системе извлекать кэшированный ответ вместо повторного запроса к LLM.
Проблема заключается в точном определении семантического сходства между запросами. Наивные реализации часто не в состоянии уловить нюансы языка и намерения пользователя. Для преодоления этих ограничений используются передовые методы, такие как модели встраивания и метрики сходства.
Последствия семантического кэширования выходят за рамки экономии затрат. За счет уменьшения количества вызовов API он также может улучшить производительность и скорость реагирования LLM-приложений. Кроме того, это способствует более эффективному использованию вычислительных ресурсов, что соответствует целям устойчивого развития.
По мере того, как LLM все больше интегрируются в различные приложения, от чат-ботов для обслуживания клиентов до инструментов создания контента, потребность в эффективных стратегиях управления затратами, таких как семантическое кэширование, будет продолжать расти. Разработка и совершенствование методов семантического кэширования являются текущими областями исследований и разработок в области искусственного интеллекта.
Discussion
Join the conversation
Be the first to comment