Стоимость LLM взлетает? Семантическое кэширование сокращает расходы на 73%

AI Insights

3 min

Cyber_CatAI

7h ago

Стоимость LLM взлетает? Семантическое кэширование сокращает расходы на 73%

AI Insights

Views

Likes

Min Read

Sources

Многие компании сталкиваются с неожиданно высокими счетами за использование API больших языковых моделей (LLM), что стимулирует поиск экономически эффективных решений. Сриниваса Редди Хулебиду Редди в недавнем анализе журналов запросов обнаружил, что значительная часть затрат на LLM связана с тем, что пользователи задают одни и те же вопросы разными способами.

Редди обнаружил, что, хотя трафик к API LLM его компании рос, затраты увеличивались неустойчивыми темпами – 30% в месяц. Он объяснил, что пользователи отправляли семантически идентичные запросы, такие как «Какова ваша политика возврата?», «Как мне что-нибудь вернуть?» и «Могу ли я получить возмещение?», которые все обрабатывались LLM как уникальные запросы, каждый из которых влек за собой полную стоимость API.

Традиционное кэширование с точным соответствием, которое использует текст запроса в качестве ключа кэша, оказалось неэффективным для устранения этой избыточности. «Кэширование с точным соответствием зафиксировало только 18 из этих избыточных вызовов, – отметил Редди. – Один и тот же семантический вопрос, сформулированный по-другому, полностью обходил кэш».

Чтобы бороться с этим, Редди внедрил семантическое кэширование – метод, который фокусируется на смысле запросов, а не на их точном формулировании. Этот подход привел к значительному улучшению коэффициента попадания в кэш, достигнув 67%, и в конечном итоге снизил затраты на API LLM на 73%.

Семантическое кэширование устраняет ограничения кэширования с точным соответствием, понимая намерение, стоящее за запросом пользователя. Вместо простого сравнения текста запроса семантическое кэширование использует такие методы, как встраивание или алгоритмы семантической близости, чтобы определить, был ли уже дан ответ на аналогичный вопрос. Если в кэше существует семантически похожий запрос, система может извлечь кэшированный ответ, избегая необходимости повторного вызова LLM.

Рост затрат на API LLM вызывает все большую обеспокоенность у предприятий, интегрирующих ИИ в свои рабочие процессы. По мере того, как LLM становятся все более распространенными, оптимизация их использования и снижение затрат будут иметь решающее значение. Семантическое кэширование представляет собой один из многообещающих подходов к решению этой проблемы, но, как отмечает Редди, успешная реализация требует тщательного учета нюансов языка и поведения пользователей.

AI-Assisted Journalism

This article was generated with AI assistance, synthesizing reporting from multiple credible news sources. Our editorial team reviews AI-generated content for accuracy.

Share & Engage

AI Analysis

Deep insights powered by AI

Discussion

Join the conversation

Be the first to comment

Новая миссия NASA нацелена на расширение возможностей телескопа «Джеймс Уэбб»

NASA запустило миссию Pandora для расширения возможностей космического телескопа James Webb в поиске обитаемых экзопланет. Pandora, меньший спутник, будет работать в тандеме с Webb для анализа химического состава далеких планетных систем, выискивая признаки водяного пара, углекислого газа и метана.

Grok все еще в Google Play? Расхождения в политике поднимают вопросы об обеспечении соблюдения.

Несмотря на явные правила Google Play Store, запрещающие приложения, генерирующие изображения неконсенсуального или сексуализированного характера, особенно с участием детей, приложение Grok AI Илона Маска остается доступным с рейтингом "Для подростков". Это несоответствие подчеркивает недостаток контроля со стороны Google, что контрастирует с более строгими, но менее четко определенными ограничениями Apple на контент приложений, и вызывает опасения по поводу ответственности платформы и безопасности пользователей.

Авторитет FCC по наложению штрафов оспорен: Верховный суд примет решение

Верховный суд намерен пересмотреть полномочия FCC по наложению штрафов, в частности, в отношении дела, когда крупные операторы были оштрафованы за продажу данных о местоположении клиентов без согласия, что поднимает вопросы о власти агентства и потенциальных последствиях для Седьмой поправки. Этот юридический вызов может изменить нормативно-правовую базу в сфере телекоммуникаций, повлияв на то, как FCC обеспечивает соблюдение правил конфиденциальности потребителей и защиты данных в эпоху, все больше зависящую от сбора и анализа данных на основе ИИ.

Pixel_Panda

Pixel_Panda•

Помпейские термы стали чище благодаря переключению на древний источник воды

3 min

World1h ago

Помпейские термы стали чище благодаря переключению на древний источник воды

Общественные бани Помпей, сохранившиеся благодаря извержению Везувия в 79 году нашей эры, позволяют понять эволюцию системы водоснабжения города. Новое исследование, анализирующее отложения карбоната кальция, выявляет переход от использования дождевой воды и колодцев к более сложной системе акведуков, что отражает достижения римской инженерии и городского развития. Этот переход, вероятно, улучшил гигиену и общественное здоровье в оживленном портовом городе, ключевом центре древнего Средиземноморья.

Nova_Fox

Nova_Fox•

Nvidia Rubin усиливает безопасность ИИ сквозным шифрованием на уровне стойки

3 min

AI Insights1h ago

Nvidia Rubin усиливает безопасность ИИ сквозным шифрованием на уровне стойки

Платформа Rubin от Nvidia представляет шифрование на уровне стойки, что является важным шагом вперед в области безопасности ИИ, обеспечивая конфиденциальные вычисления на ЦП, графических процессорах и NVLink, решая растущую угрозу кибератак на все более дорогие модели ИИ. Эта технология позволяет предприятиям криптографически проверять безопасность, выходя за рамки доверительной безопасности облачных вычислений, что имеет решающее значение, учитывая растущие затраты на обучение ИИ и увеличение частоты взломов моделей ИИ.

Pixel_Panda

Pixel_Panda•

EPA отодвигает здоровье на второй план в правилах по загрязнению воздуха: рискованный расчет?

3 min

AI Insights1h ago

EPA отодвигает здоровье на второй план в правилах по загрязнению воздуха: рискованный расчет?

Администрация Трампа в EPA рассматривает изменение политики, которое будет игнорировать пользу для здоровья от снижения загрязнения воздуха при принятии нормативных решений, потенциально отменяя десятилетия устоявшейся практики, учитывающей экономическую ценность человеческой жизни. Это изменение может иметь серьезные последствия для общественного здравоохранения, поскольку оно может привести к ослаблению правил в отношении загрязняющих веществ, таких как озон и мелкие твердые частицы, оба из которых связаны с серьезными сердечно-сосудистыми заболеваниями. Этот шаг вызывает опасения по поводу будущего охраны окружающей среды и роли ИИ в оценке истинного анализа затрат и выгод экологических норм.

Pixel_Panda

Pixel_Panda•

Сокращение расходов на LLM: семантическое кэширование снижает счета на 73%

3 min

AI Insights1h ago

Сокращение расходов на LLM: семантическое кэширование снижает счета на 73%

Семантическое кэширование, которое фокусируется на смысле запросов, а не на точном совпадении слов, может значительно сократить расходы на API LLM за счет выявления и повторного использования ответов на семантически схожие вопросы. Традиционное кэширование с точным соответствием часто не позволяет выявить эти избыточности, что приводит к ненужным затратам, но внедрение семантического кэширования может увеличить частоту попаданий в кэш и существенно снизить счета за LLM.

Cyber_Cat

Cyber_Cat•

Cowork от Anthropic: управляйте кодом Claude с помощью простых инструкций

3 min

Tech1h ago

Cowork от Anthropic: управляйте кодом Claude с помощью простых инструкций

Cowork от Anthropic, сейчас доступный в ознакомительном режиме для подписчиков Max, упрощает управление файлами на основе ИИ, позволяя Claude взаимодействовать с указанными папками через удобный чат-интерфейс. Cowork, построенный на Claude Agent SDK, предлагает менее техническую альтернативу Claude Code, открывая возможности для задач, не требующих программирования, таких как создание отчетов о расходах, и одновременно поднимая вопросы об управлении автономностью ИИ.

Cyber_Cat

Cyber_Cat•

Новая фирма основателя Pebble: сначала прибыль, а не стартап-гонка

3 min

Tech1h ago

Новая фирма основателя Pebble: сначала прибыль, а не стартап-гонка

Основатель Pebble, Эрик Мигиковски, запускает Core Devices, сосредотачиваясь на устойчивой бизнес-модели для перезапуска умных часов Pebble и AI-кольца, избегая ловушек традиционных стартапов, поддерживаемых венчурным капиталом. Core Devices стремится к прибыльности с самого начала, используя уроки, извлеченные из приобретения Pebble компанией Fitbit, путем тщательного управления запасами и отказа от внешнего финансирования. Этот подход сигнализирует о сдвиге в сторону долгосрочной жизнеспособности в сфере потребительской электроники, отдавая приоритет умеренному росту, а не быстрому расширению.

Pixel_Panda

Pixel_Panda•

Маккензи Скотт поддерживает ЛГБТК+ молодежную линию жизни пожертвованием в 45 миллионов долларов

3 min

Health & Wellness1h ago

Маккензи Скотт поддерживает ЛГБТК+ молодежную линию жизни пожертвованием в 45 миллионов долларов

Многочисленные новостные источники сообщают, что Маккензи Скотт пожертвовала 45 миллионов долларов организации The Trevor Project, некоммерческой организации, поддерживающей ЛГБТК-молодежь. Это стало их крупнейшим разовым пожертвованием в истории и важным подспорьем после возросшего спроса на услуги и закрытия администрацией Трампа соответствующих федеральных программ консультирования. Это пожертвование направлено на расширение охвата организации и решение обострившихся проблем психического здоровья и политической враждебности, с которыми сталкивается ЛГБТК-молодежь, переживающая усиление суицидальных мыслей.

ИИ накаляет обстановку в здравоохранении: Claude от Anthropic присоединяется к ChatGPT от OpenAI

Anthropic представила Claude для здравоохранения, набор инструментов искусственного интеллекта, предназначенный для оптимизации процессов здравоохранения для поставщиков услуг, плательщиков и пациентов, что перекликается с анонсом ChatGPT Health от OpenAI. Claude отличается коннекторами, которые обеспечивают доступ к важнейшим базам данных, потенциально ускоряя исследования и административные задачи, хотя сохраняются опасения по поводу надежности медицинских консультаций, основанных на искусственном интеллекте.

Cyber_Cat

Cyber_Cat•

ИИ привлек внимание к фонду GoFundMe для агентов ICE: Нарушены ли правила?

3 min

AI Insights1h ago

ИИ привлек внимание к фонду GoFundMe для агентов ICE: Нарушены ли правила?

GoFundMe столкнулась с критикой за размещение сбора средств для агента ICE, смертельно ранившего гражданское лицо, что потенциально нарушает ее собственную политику, запрещающую поддержку юридической защиты в случаях насильственных преступлений. Это поднимает вопросы о модерации контента на платформе и об этических последствиях краудфандинга в делах, связанных с правоохранительными органами и гибелью гражданских лиц, подчеркивая проблемы последовательного применения политик контента, основанных на ИИ. ФБР в настоящее время проводит расследование инцидента со стрельбой.

Pixel_Panda

Pixel_Panda•

Share & Engage

AI Analysis

Discussion

More Stories

Новая миссия NASA нацелена на расширение возможностей телескопа «Джеймс Уэбб»

Grok все еще в Google Play? Расхождения в политике поднимают вопросы об обеспечении соблюдения.

Авторитет FCC по наложению штрафов оспорен: Верховный суд примет решение

Помпейские термы стали чище благодаря переключению на древний источник воды

Nvidia Rubin усиливает безопасность ИИ сквозным шифрованием на уровне стойки

EPA отодвигает здоровье на второй план в правилах по загрязнению воздуха: рискованный расчет?

Сокращение расходов на LLM: семантическое кэширование снижает счета на 73%

Cowork от Anthropic: управляйте кодом Claude с помощью простых инструкций

Новая фирма основателя Pebble: сначала прибыль, а не стартап-гонка

Маккензи Скотт поддерживает ЛГБТК+ молодежную линию жизни пожертвованием в 45 миллионов долларов

ИИ накаляет обстановку в здравоохранении: Claude от Anthropic присоединяется к ChatGPT от OpenAI

ИИ привлек внимание к фонду GoFundMe для агентов ICE: Нарушены ли правила?