AI Insights
4 min

Pixel_Panda
6h ago
0
0
Стоимость LLM взлетает? Семантическое кэширование сокращает расходы на 73%

Многие компании наблюдают взрывной рост счетов за интерфейсы прикладного программирования (API) больших языковых моделей (LLM) из-за избыточных запросов, как утверждает Сриниваса Редди Хулебиду Редди, разработчик AI-приложений. Редди обнаружил, что пользователи часто задают одни и те же вопросы разными способами, что заставляет LLM обрабатывать каждый вариант отдельно и нести полные затраты на API для каждого из них.

Анализ журналов запросов, проведенный Редди, показал, что пользователи неоднократно задавали одни и те же вопросы, используя разные формулировки. Например, вопросы типа «Какие у вас условия возврата?», «Как мне вернуть товар?» и «Могу ли я получить возмещение?» вызывали практически идентичные ответы от LLM, но каждый из них запускал отдельный вызов API.

Традиционное кэширование с точным соответствием, которое использует текст запроса в качестве ключа кэша, оказалось неэффективным для решения этой проблемы. Редди обнаружил, что кэширование с точным соответствием зафиксировало только 18 из этих избыточных вызовов из 100 000 производственных запросов. «Один и тот же семантический вопрос, сформулированный по-разному, полностью обходил кэш», — пояснил Редди.

Для борьбы с этим Редди внедрил семантическое кэширование — метод, который кэширует ответы на основе значения запроса, а не точной формулировки. Этот подход увеличил коэффициент попадания в кэш до 67%, что привело к снижению затрат на LLM API на 73%. Семантическое кэширование решает основную проблему, когда пользователи формулируют один и тот же вопрос разными способами.

Семантическое кэширование представляет собой значительный прогресс по сравнению с традиционными методами кэширования в контексте LLM. Традиционное кэширование основано на точном соответствии между входящим запросом и кэшированным запросом. Этот метод прост в реализации, но не учитывает нюансы человеческого языка, где одно и то же намерение может быть выражено множеством способов. Семантическое кэширование, с другой стороны, использует такие методы, как встраивание и метрики сходства, чтобы определить, является ли новый запрос семантически похожим на ранее кэшированный запрос. Если сходство превышает заданный порог, возвращается кэшированный ответ, что позволяет избежать дорогостоящего вызова API.

Разработка семантического кэширования подчеркивает растущую потребность в эффективных и экономичных методах использования LLM. По мере того, как LLM все больше интегрируются в различные приложения, управление затратами на API становится критически важной задачей для бизнеса. Семантическое кэширование предлагает многообещающее решение, сокращая избыточность и оптимизируя использование ресурсов. Дальнейшие исследования и разработки в этой области могут привести к созданию еще более сложных стратегий кэширования, которые еще больше минимизируют затраты на LLM API и улучшат общую производительность.

AI-Assisted Journalism

This article was generated with AI assistance, synthesizing reporting from multiple credible news sources. Our editorial team reviews AI-generated content for accuracy.

Share & Engage

0
0

AI Analysis

Deep insights powered by AI

Discussion

Join the conversation

0
0
Login to comment

Be the first to comment

More Stories

Continue exploring

12
Новая миссия NASA нацелена на расширение возможностей телескопа «Джеймс Уэбб»
General55m ago

Новая миссия NASA нацелена на расширение возможностей телескопа «Джеймс Уэбб»

NASA запустило миссию Pandora для расширения возможностей космического телескопа James Webb в поиске обитаемых экзопланет. Pandora, меньший спутник, будет работать в тандеме с Webb для анализа химического состава далеких планетных систем, выискивая признаки водяного пара, углекислого газа и метана.

Spark_Squirrel
Spark_Squirrel
00
Grok все еще в Google Play? Расхождения в политике поднимают вопросы об обеспечении соблюдения.
Tech55m ago

Grok все еще в Google Play? Расхождения в политике поднимают вопросы об обеспечении соблюдения.

Несмотря на явные правила Google Play Store, запрещающие приложения, генерирующие изображения неконсенсуального или сексуализированного характера, особенно с участием детей, приложение Grok AI Илона Маска остается доступным с рейтингом "Для подростков". Это несоответствие подчеркивает недостаток контроля со стороны Google, что контрастирует с более строгими, но менее четко определенными ограничениями Apple на контент приложений, и вызывает опасения по поводу ответственности платформы и безопасности пользователей.

Neon_Narwhal
Neon_Narwhal
00
Авторитет FCC по наложению штрафов оспорен: Верховный суд примет решение
AI Insights56m ago

Авторитет FCC по наложению штрафов оспорен: Верховный суд примет решение

Верховный суд намерен пересмотреть полномочия FCC по наложению штрафов, в частности, в отношении дела, когда крупные операторы были оштрафованы за продажу данных о местоположении клиентов без согласия, что поднимает вопросы о власти агентства и потенциальных последствиях для Седьмой поправки. Этот юридический вызов может изменить нормативно-правовую базу в сфере телекоммуникаций, повлияв на то, как FCC обеспечивает соблюдение правил конфиденциальности потребителей и защиты данных в эпоху, все больше зависящую от сбора и анализа данных на основе ИИ.

Pixel_Panda
Pixel_Panda
00
Помпейские термы стали чище благодаря переключению на древний источник воды
World56m ago

Помпейские термы стали чище благодаря переключению на древний источник воды

Общественные бани Помпей, сохранившиеся благодаря извержению Везувия в 79 году нашей эры, позволяют понять эволюцию системы водоснабжения города. Новое исследование, анализирующее отложения карбоната кальция, выявляет переход от использования дождевой воды и колодцев к более сложной системе акведуков, что отражает достижения римской инженерии и городского развития. Этот переход, вероятно, улучшил гигиену и общественное здоровье в оживленном портовом городе, ключевом центре древнего Средиземноморья.

Nova_Fox
Nova_Fox
00
Nvidia Rubin усиливает безопасность ИИ сквозным шифрованием на уровне стойки
AI Insights57m ago

Nvidia Rubin усиливает безопасность ИИ сквозным шифрованием на уровне стойки

Платформа Rubin от Nvidia представляет шифрование на уровне стойки, что является важным шагом вперед в области безопасности ИИ, обеспечивая конфиденциальные вычисления на ЦП, графических процессорах и NVLink, решая растущую угрозу кибератак на все более дорогие модели ИИ. Эта технология позволяет предприятиям криптографически проверять безопасность, выходя за рамки доверительной безопасности облачных вычислений, что имеет решающее значение, учитывая растущие затраты на обучение ИИ и увеличение частоты взломов моделей ИИ.

Pixel_Panda
Pixel_Panda
00
EPA отодвигает здоровье на второй план в правилах по загрязнению воздуха: рискованный расчет?
AI Insights57m ago

EPA отодвигает здоровье на второй план в правилах по загрязнению воздуха: рискованный расчет?

Администрация Трампа в EPA рассматривает изменение политики, которое будет игнорировать пользу для здоровья от снижения загрязнения воздуха при принятии нормативных решений, потенциально отменяя десятилетия устоявшейся практики, учитывающей экономическую ценность человеческой жизни. Это изменение может иметь серьезные последствия для общественного здравоохранения, поскольку оно может привести к ослаблению правил в отношении загрязняющих веществ, таких как озон и мелкие твердые частицы, оба из которых связаны с серьезными сердечно-сосудистыми заболеваниями. Этот шаг вызывает опасения по поводу будущего охраны окружающей среды и роли ИИ в оценке истинного анализа затрат и выгод экологических норм.

Pixel_Panda
Pixel_Panda
00
Сокращение расходов на LLM: семантическое кэширование снижает счета на 73%
AI Insights57m ago

Сокращение расходов на LLM: семантическое кэширование снижает счета на 73%

Семантическое кэширование, которое фокусируется на смысле запросов, а не на точном совпадении слов, может значительно сократить расходы на API LLM за счет выявления и повторного использования ответов на семантически схожие вопросы. Традиционное кэширование с точным соответствием часто не позволяет выявить эти избыточности, что приводит к ненужным затратам, но внедрение семантического кэширования может увеличить частоту попаданий в кэш и существенно снизить счета за LLM.

Cyber_Cat
Cyber_Cat
00
Cowork от Anthropic: управляйте кодом Claude с помощью простых инструкций
Tech57m ago

Cowork от Anthropic: управляйте кодом Claude с помощью простых инструкций

Cowork от Anthropic, сейчас доступный в ознакомительном режиме для подписчиков Max, упрощает управление файлами на основе ИИ, позволяя Claude взаимодействовать с указанными папками через удобный чат-интерфейс. Cowork, построенный на Claude Agent SDK, предлагает менее техническую альтернативу Claude Code, открывая возможности для задач, не требующих программирования, таких как создание отчетов о расходах, и одновременно поднимая вопросы об управлении автономностью ИИ.

Cyber_Cat
Cyber_Cat
00
Новая фирма основателя Pebble: сначала прибыль, а не стартап-гонка
Tech58m ago

Новая фирма основателя Pebble: сначала прибыль, а не стартап-гонка

Основатель Pebble, Эрик Мигиковски, запускает Core Devices, сосредотачиваясь на устойчивой бизнес-модели для перезапуска умных часов Pebble и AI-кольца, избегая ловушек традиционных стартапов, поддерживаемых венчурным капиталом. Core Devices стремится к прибыльности с самого начала, используя уроки, извлеченные из приобретения Pebble компанией Fitbit, путем тщательного управления запасами и отказа от внешнего финансирования. Этот подход сигнализирует о сдвиге в сторону долгосрочной жизнеспособности в сфере потребительской электроники, отдавая приоритет умеренному росту, а не быстрому расширению.

Pixel_Panda
Pixel_Panda
00
Маккензи Скотт поддерживает ЛГБТК+ молодежную линию жизни пожертвованием в 45 миллионов долларов
Health & Wellness58m ago

Маккензи Скотт поддерживает ЛГБТК+ молодежную линию жизни пожертвованием в 45 миллионов долларов

Многочисленные новостные источники сообщают, что Маккензи Скотт пожертвовала 45 миллионов долларов организации The Trevor Project, некоммерческой организации, поддерживающей ЛГБТК-молодежь. Это стало их крупнейшим разовым пожертвованием в истории и важным подспорьем после возросшего спроса на услуги и закрытия администрацией Трампа соответствующих федеральных программ консультирования. Это пожертвование направлено на расширение охвата организации и решение обострившихся проблем психического здоровья и политической враждебности, с которыми сталкивается ЛГБТК-молодежь, переживающая усиление суицидальных мыслей.

Luna_Butterfly
Luna_Butterfly
00
ИИ накаляет обстановку в здравоохранении: Claude от Anthropic присоединяется к ChatGPT от OpenAI
AI Insights58m ago

ИИ накаляет обстановку в здравоохранении: Claude от Anthropic присоединяется к ChatGPT от OpenAI

Anthropic представила Claude для здравоохранения, набор инструментов искусственного интеллекта, предназначенный для оптимизации процессов здравоохранения для поставщиков услуг, плательщиков и пациентов, что перекликается с анонсом ChatGPT Health от OpenAI. Claude отличается коннекторами, которые обеспечивают доступ к важнейшим базам данных, потенциально ускоряя исследования и административные задачи, хотя сохраняются опасения по поводу надежности медицинских консультаций, основанных на искусственном интеллекте.

Cyber_Cat
Cyber_Cat
00
ИИ привлек внимание к фонду GoFundMe для агентов ICE: Нарушены ли правила?
AI Insights58m ago

ИИ привлек внимание к фонду GoFundMe для агентов ICE: Нарушены ли правила?

GoFundMe столкнулась с критикой за размещение сбора средств для агента ICE, смертельно ранившего гражданское лицо, что потенциально нарушает ее собственную политику, запрещающую поддержку юридической защиты в случаях насильственных преступлений. Это поднимает вопросы о модерации контента на платформе и об этических последствиях краудфандинга в делах, связанных с правоохранительными органами и гибелью гражданских лиц, подчеркивая проблемы последовательного применения политик контента, основанных на ИИ. ФБР в настоящее время проводит расследование инцидента со стрельбой.

Pixel_Panda
Pixel_Panda
00