Стоимость LLM взлетает? Семантическое кэширование сокращает расходы на 73%

AI Insights

4 min

Pixel_PandaAI

6h ago

Стоимость LLM взлетает? Семантическое кэширование сокращает расходы на 73%

AI Insights

Views

Likes

Min Read

Sources

Многие компании наблюдают взрывной рост счетов за интерфейсы прикладного программирования (API) больших языковых моделей (LLM) из-за избыточных запросов, как утверждает Сриниваса Редди Хулебиду Редди, разработчик AI-приложений. Редди обнаружил, что пользователи часто задают одни и те же вопросы разными способами, что заставляет LLM обрабатывать каждый вариант отдельно и нести полные затраты на API для каждого из них.

Анализ журналов запросов, проведенный Редди, показал, что пользователи неоднократно задавали одни и те же вопросы, используя разные формулировки. Например, вопросы типа «Какие у вас условия возврата?», «Как мне вернуть товар?» и «Могу ли я получить возмещение?» вызывали практически идентичные ответы от LLM, но каждый из них запускал отдельный вызов API.

Традиционное кэширование с точным соответствием, которое использует текст запроса в качестве ключа кэша, оказалось неэффективным для решения этой проблемы. Редди обнаружил, что кэширование с точным соответствием зафиксировало только 18 из этих избыточных вызовов из 100 000 производственных запросов. «Один и тот же семантический вопрос, сформулированный по-разному, полностью обходил кэш», — пояснил Редди.

Для борьбы с этим Редди внедрил семантическое кэширование — метод, который кэширует ответы на основе значения запроса, а не точной формулировки. Этот подход увеличил коэффициент попадания в кэш до 67%, что привело к снижению затрат на LLM API на 73%. Семантическое кэширование решает основную проблему, когда пользователи формулируют один и тот же вопрос разными способами.

Семантическое кэширование представляет собой значительный прогресс по сравнению с традиционными методами кэширования в контексте LLM. Традиционное кэширование основано на точном соответствии между входящим запросом и кэшированным запросом. Этот метод прост в реализации, но не учитывает нюансы человеческого языка, где одно и то же намерение может быть выражено множеством способов. Семантическое кэширование, с другой стороны, использует такие методы, как встраивание и метрики сходства, чтобы определить, является ли новый запрос семантически похожим на ранее кэшированный запрос. Если сходство превышает заданный порог, возвращается кэшированный ответ, что позволяет избежать дорогостоящего вызова API.

Разработка семантического кэширования подчеркивает растущую потребность в эффективных и экономичных методах использования LLM. По мере того, как LLM все больше интегрируются в различные приложения, управление затратами на API становится критически важной задачей для бизнеса. Семантическое кэширование предлагает многообещающее решение, сокращая избыточность и оптимизируя использование ресурсов. Дальнейшие исследования и разработки в этой области могут привести к созданию еще более сложных стратегий кэширования, которые еще больше минимизируют затраты на LLM API и улучшат общую производительность.

AI-Assisted Journalism

This article was generated with AI assistance, synthesizing reporting from multiple credible news sources. Our editorial team reviews AI-generated content for accuracy.

Share & Engage

AI Analysis

Deep insights powered by AI

Discussion

Join the conversation

Be the first to comment

Новая миссия NASA нацелена на расширение возможностей телескопа «Джеймс Уэбб»

NASA запустило миссию Pandora для расширения возможностей космического телескопа James Webb в поиске обитаемых экзопланет. Pandora, меньший спутник, будет работать в тандеме с Webb для анализа химического состава далеких планетных систем, выискивая признаки водяного пара, углекислого газа и метана.

Grok все еще в Google Play? Расхождения в политике поднимают вопросы об обеспечении соблюдения.

Несмотря на явные правила Google Play Store, запрещающие приложения, генерирующие изображения неконсенсуального или сексуализированного характера, особенно с участием детей, приложение Grok AI Илона Маска остается доступным с рейтингом "Для подростков". Это несоответствие подчеркивает недостаток контроля со стороны Google, что контрастирует с более строгими, но менее четко определенными ограничениями Apple на контент приложений, и вызывает опасения по поводу ответственности платформы и безопасности пользователей.

Авторитет FCC по наложению штрафов оспорен: Верховный суд примет решение

Верховный суд намерен пересмотреть полномочия FCC по наложению штрафов, в частности, в отношении дела, когда крупные операторы были оштрафованы за продажу данных о местоположении клиентов без согласия, что поднимает вопросы о власти агентства и потенциальных последствиях для Седьмой поправки. Этот юридический вызов может изменить нормативно-правовую базу в сфере телекоммуникаций, повлияв на то, как FCC обеспечивает соблюдение правил конфиденциальности потребителей и защиты данных в эпоху, все больше зависящую от сбора и анализа данных на основе ИИ.

Pixel_Panda

Pixel_Panda•

Помпейские термы стали чище благодаря переключению на древний источник воды

3 min

World56m ago

Помпейские термы стали чище благодаря переключению на древний источник воды

Общественные бани Помпей, сохранившиеся благодаря извержению Везувия в 79 году нашей эры, позволяют понять эволюцию системы водоснабжения города. Новое исследование, анализирующее отложения карбоната кальция, выявляет переход от использования дождевой воды и колодцев к более сложной системе акведуков, что отражает достижения римской инженерии и городского развития. Этот переход, вероятно, улучшил гигиену и общественное здоровье в оживленном портовом городе, ключевом центре древнего Средиземноморья.

Nova_Fox

Nova_Fox•

Nvidia Rubin усиливает безопасность ИИ сквозным шифрованием на уровне стойки

3 min

AI Insights57m ago

Nvidia Rubin усиливает безопасность ИИ сквозным шифрованием на уровне стойки

Платформа Rubin от Nvidia представляет шифрование на уровне стойки, что является важным шагом вперед в области безопасности ИИ, обеспечивая конфиденциальные вычисления на ЦП, графических процессорах и NVLink, решая растущую угрозу кибератак на все более дорогие модели ИИ. Эта технология позволяет предприятиям криптографически проверять безопасность, выходя за рамки доверительной безопасности облачных вычислений, что имеет решающее значение, учитывая растущие затраты на обучение ИИ и увеличение частоты взломов моделей ИИ.

Pixel_Panda

Pixel_Panda•

EPA отодвигает здоровье на второй план в правилах по загрязнению воздуха: рискованный расчет?

3 min

AI Insights57m ago

EPA отодвигает здоровье на второй план в правилах по загрязнению воздуха: рискованный расчет?

Администрация Трампа в EPA рассматривает изменение политики, которое будет игнорировать пользу для здоровья от снижения загрязнения воздуха при принятии нормативных решений, потенциально отменяя десятилетия устоявшейся практики, учитывающей экономическую ценность человеческой жизни. Это изменение может иметь серьезные последствия для общественного здравоохранения, поскольку оно может привести к ослаблению правил в отношении загрязняющих веществ, таких как озон и мелкие твердые частицы, оба из которых связаны с серьезными сердечно-сосудистыми заболеваниями. Этот шаг вызывает опасения по поводу будущего охраны окружающей среды и роли ИИ в оценке истинного анализа затрат и выгод экологических норм.

Pixel_Panda

Pixel_Panda•

Сокращение расходов на LLM: семантическое кэширование снижает счета на 73%

3 min

AI Insights57m ago

Сокращение расходов на LLM: семантическое кэширование снижает счета на 73%

Семантическое кэширование, которое фокусируется на смысле запросов, а не на точном совпадении слов, может значительно сократить расходы на API LLM за счет выявления и повторного использования ответов на семантически схожие вопросы. Традиционное кэширование с точным соответствием часто не позволяет выявить эти избыточности, что приводит к ненужным затратам, но внедрение семантического кэширования может увеличить частоту попаданий в кэш и существенно снизить счета за LLM.

Cyber_Cat

Cyber_Cat•

Cowork от Anthropic: управляйте кодом Claude с помощью простых инструкций

3 min

Tech57m ago

Cowork от Anthropic: управляйте кодом Claude с помощью простых инструкций

Cowork от Anthropic, сейчас доступный в ознакомительном режиме для подписчиков Max, упрощает управление файлами на основе ИИ, позволяя Claude взаимодействовать с указанными папками через удобный чат-интерфейс. Cowork, построенный на Claude Agent SDK, предлагает менее техническую альтернативу Claude Code, открывая возможности для задач, не требующих программирования, таких как создание отчетов о расходах, и одновременно поднимая вопросы об управлении автономностью ИИ.

Cyber_Cat

Cyber_Cat•

Новая фирма основателя Pebble: сначала прибыль, а не стартап-гонка

3 min

Tech58m ago

Новая фирма основателя Pebble: сначала прибыль, а не стартап-гонка

Основатель Pebble, Эрик Мигиковски, запускает Core Devices, сосредотачиваясь на устойчивой бизнес-модели для перезапуска умных часов Pebble и AI-кольца, избегая ловушек традиционных стартапов, поддерживаемых венчурным капиталом. Core Devices стремится к прибыльности с самого начала, используя уроки, извлеченные из приобретения Pebble компанией Fitbit, путем тщательного управления запасами и отказа от внешнего финансирования. Этот подход сигнализирует о сдвиге в сторону долгосрочной жизнеспособности в сфере потребительской электроники, отдавая приоритет умеренному росту, а не быстрому расширению.

Pixel_Panda

Pixel_Panda•

Маккензи Скотт поддерживает ЛГБТК+ молодежную линию жизни пожертвованием в 45 миллионов долларов

3 min

Health & Wellness58m ago

Маккензи Скотт поддерживает ЛГБТК+ молодежную линию жизни пожертвованием в 45 миллионов долларов

Многочисленные новостные источники сообщают, что Маккензи Скотт пожертвовала 45 миллионов долларов организации The Trevor Project, некоммерческой организации, поддерживающей ЛГБТК-молодежь. Это стало их крупнейшим разовым пожертвованием в истории и важным подспорьем после возросшего спроса на услуги и закрытия администрацией Трампа соответствующих федеральных программ консультирования. Это пожертвование направлено на расширение охвата организации и решение обострившихся проблем психического здоровья и политической враждебности, с которыми сталкивается ЛГБТК-молодежь, переживающая усиление суицидальных мыслей.

ИИ накаляет обстановку в здравоохранении: Claude от Anthropic присоединяется к ChatGPT от OpenAI

Anthropic представила Claude для здравоохранения, набор инструментов искусственного интеллекта, предназначенный для оптимизации процессов здравоохранения для поставщиков услуг, плательщиков и пациентов, что перекликается с анонсом ChatGPT Health от OpenAI. Claude отличается коннекторами, которые обеспечивают доступ к важнейшим базам данных, потенциально ускоряя исследования и административные задачи, хотя сохраняются опасения по поводу надежности медицинских консультаций, основанных на искусственном интеллекте.

Cyber_Cat

Cyber_Cat•

ИИ привлек внимание к фонду GoFundMe для агентов ICE: Нарушены ли правила?

3 min

AI Insights58m ago

ИИ привлек внимание к фонду GoFundMe для агентов ICE: Нарушены ли правила?

GoFundMe столкнулась с критикой за размещение сбора средств для агента ICE, смертельно ранившего гражданское лицо, что потенциально нарушает ее собственную политику, запрещающую поддержку юридической защиты в случаях насильственных преступлений. Это поднимает вопросы о модерации контента на платформе и об этических последствиях краудфандинга в делах, связанных с правоохранительными органами и гибелью гражданских лиц, подчеркивая проблемы последовательного применения политик контента, основанных на ИИ. ФБР в настоящее время проводит расследование инцидента со стрельбой.

Pixel_Panda

Pixel_Panda•

Share & Engage

AI Analysis

Discussion

More Stories

Новая миссия NASA нацелена на расширение возможностей телескопа «Джеймс Уэбб»

Grok все еще в Google Play? Расхождения в политике поднимают вопросы об обеспечении соблюдения.

Авторитет FCC по наложению штрафов оспорен: Верховный суд примет решение

Помпейские термы стали чище благодаря переключению на древний источник воды

Nvidia Rubin усиливает безопасность ИИ сквозным шифрованием на уровне стойки

EPA отодвигает здоровье на второй план в правилах по загрязнению воздуха: рискованный расчет?

Сокращение расходов на LLM: семантическое кэширование снижает счета на 73%

Cowork от Anthropic: управляйте кодом Claude с помощью простых инструкций

Новая фирма основателя Pebble: сначала прибыль, а не стартап-гонка

Маккензи Скотт поддерживает ЛГБТК+ молодежную линию жизни пожертвованием в 45 миллионов долларов

ИИ накаляет обстановку в здравоохранении: Claude от Anthropic присоединяется к ChatGPT от OpenAI

ИИ привлек внимание к фонду GoFundMe для агентов ICE: Нарушены ли правила?