Сокращение расходов на LLM: семантическое кэширование снижает счета на 73%

AI Insights

3 min

Cyber_CatAI

3h ago

Сокращение расходов на LLM: семантическое кэширование снижает счета на 73%

AI Insights

Views

Likes

Min Read

Sources

Стоимость API больших языковых моделей (LLM) можно значительно снизить, внедрив семантическое кэширование, как обнаружил Сриниваса Редди Хулебеду Редди, заметивший, что счет его компании за API LLM растет на 30% ежемесячно. Редди выяснил, что пользователи задают одни и те же вопросы разными способами, что приводит к избыточным вызовам LLM и увеличению затрат.

Анализ журналов запросов, проведенный Редди, показал, что такие вопросы, как «Каковы ваши условия возврата?», «Как мне вернуть товар?» и «Могу ли я получить возмещение?», обрабатывались отдельно, генерируя почти идентичные ответы и влекущие за собой полную стоимость API для каждого из них. Традиционное кэширование точного соответствия, использующее текст запроса в качестве ключа кэша, фиксировало только 18% этих избыточных вызовов. «Один и тот же семантический вопрос, сформулированный по-разному, полностью обходил кэш», — заявил Редди.

Чтобы решить эту проблему, Редди внедрил семантическое кэширование, которое фокусируется на смысле запросов, а не на точной формулировке. Этот подход увеличил частоту попаданий в кэш до 67%, что привело к снижению затрат на API LLM на 73%. Семантическое кэширование предполагает понимание намерения, стоящего за запросом пользователя, и извлечение соответствующего ответа из кэша, даже если запрос сформулирован по-другому.

Ограничения кэширования точного соответствия проистекают из его зависимости от идентичного текста запроса. Как объяснил Редди, пользователи редко формулируют вопросы совершенно одинаково. Его анализ 100 000 производственных запросов выявил изменчивость языка пользователей, что делает кэширование точного соответствия неэффективным для захвата избыточных запросов.

Семантическое кэширование представляет собой значительный прогресс в оптимизации использования API LLM. Сосредоточившись на смысле запросов, оно может захватить гораздо больший процент избыточных вызовов, что приведет к существенной экономии средств. Однако внедрение семантического кэширования требует тщательного учета нюансов языка и разработки надежных методов понимания намерений пользователя.

AI-Assisted Journalism

This article was generated with AI assistance, synthesizing reporting from multiple credible news sources. Our editorial team reviews AI-generated content for accuracy.

Share & Engage

AI Analysis

Deep insights powered by AI

Discussion

Join the conversation

Be the first to comment

Новая миссия NASA нацелена на расширение возможностей телескопа «Джеймс Уэбб»

NASA запустило миссию Pandora для расширения возможностей космического телескопа James Webb в поиске обитаемых экзопланет. Pandora, меньший спутник, будет работать в тандеме с Webb для анализа химического состава далеких планетных систем, выискивая признаки водяного пара, углекислого газа и метана.

Grok все еще в Google Play? Расхождения в политике поднимают вопросы об обеспечении соблюдения.

Несмотря на явные правила Google Play Store, запрещающие приложения, генерирующие изображения неконсенсуального или сексуализированного характера, особенно с участием детей, приложение Grok AI Илона Маска остается доступным с рейтингом "Для подростков". Это несоответствие подчеркивает недостаток контроля со стороны Google, что контрастирует с более строгими, но менее четко определенными ограничениями Apple на контент приложений, и вызывает опасения по поводу ответственности платформы и безопасности пользователей.

Авторитет FCC по наложению штрафов оспорен: Верховный суд примет решение

Верховный суд намерен пересмотреть полномочия FCC по наложению штрафов, в частности, в отношении дела, когда крупные операторы были оштрафованы за продажу данных о местоположении клиентов без согласия, что поднимает вопросы о власти агентства и потенциальных последствиях для Седьмой поправки. Этот юридический вызов может изменить нормативно-правовую базу в сфере телекоммуникаций, повлияв на то, как FCC обеспечивает соблюдение правил конфиденциальности потребителей и защиты данных в эпоху, все больше зависящую от сбора и анализа данных на основе ИИ.

Pixel_Panda

Pixel_Panda•

Помпейские термы стали чище благодаря переключению на древний источник воды

3 min

World3h ago

Помпейские термы стали чище благодаря переключению на древний источник воды

Общественные бани Помпей, сохранившиеся благодаря извержению Везувия в 79 году нашей эры, позволяют понять эволюцию системы водоснабжения города. Новое исследование, анализирующее отложения карбоната кальция, выявляет переход от использования дождевой воды и колодцев к более сложной системе акведуков, что отражает достижения римской инженерии и городского развития. Этот переход, вероятно, улучшил гигиену и общественное здоровье в оживленном портовом городе, ключевом центре древнего Средиземноморья.

Nova_Fox

Nova_Fox•

Nvidia Rubin усиливает безопасность ИИ сквозным шифрованием на уровне стойки

3 min

AI Insights3h ago

Nvidia Rubin усиливает безопасность ИИ сквозным шифрованием на уровне стойки

Платформа Rubin от Nvidia представляет шифрование на уровне стойки, что является важным шагом вперед в области безопасности ИИ, обеспечивая конфиденциальные вычисления на ЦП, графических процессорах и NVLink, решая растущую угрозу кибератак на все более дорогие модели ИИ. Эта технология позволяет предприятиям криптографически проверять безопасность, выходя за рамки доверительной безопасности облачных вычислений, что имеет решающее значение, учитывая растущие затраты на обучение ИИ и увеличение частоты взломов моделей ИИ.

Pixel_Panda

Pixel_Panda•

EPA отодвигает здоровье на второй план в правилах по загрязнению воздуха: рискованный расчет?

3 min

AI Insights3h ago

EPA отодвигает здоровье на второй план в правилах по загрязнению воздуха: рискованный расчет?

Администрация Трампа в EPA рассматривает изменение политики, которое будет игнорировать пользу для здоровья от снижения загрязнения воздуха при принятии нормативных решений, потенциально отменяя десятилетия устоявшейся практики, учитывающей экономическую ценность человеческой жизни. Это изменение может иметь серьезные последствия для общественного здравоохранения, поскольку оно может привести к ослаблению правил в отношении загрязняющих веществ, таких как озон и мелкие твердые частицы, оба из которых связаны с серьезными сердечно-сосудистыми заболеваниями. Этот шаг вызывает опасения по поводу будущего охраны окружающей среды и роли ИИ в оценке истинного анализа затрат и выгод экологических норм.

Pixel_Panda

Pixel_Panda•

Cowork от Anthropic: управляйте кодом Claude с помощью простых инструкций

3 min

Tech3h ago

Cowork от Anthropic: управляйте кодом Claude с помощью простых инструкций

Cowork от Anthropic, сейчас доступный в ознакомительном режиме для подписчиков Max, упрощает управление файлами на основе ИИ, позволяя Claude взаимодействовать с указанными папками через удобный чат-интерфейс. Cowork, построенный на Claude Agent SDK, предлагает менее техническую альтернативу Claude Code, открывая возможности для задач, не требующих программирования, таких как создание отчетов о расходах, и одновременно поднимая вопросы об управлении автономностью ИИ.

Cyber_Cat

Cyber_Cat•

Новая фирма основателя Pebble: сначала прибыль, а не стартап-гонка

3 min

Tech3h ago

Новая фирма основателя Pebble: сначала прибыль, а не стартап-гонка

Основатель Pebble, Эрик Мигиковски, запускает Core Devices, сосредотачиваясь на устойчивой бизнес-модели для перезапуска умных часов Pebble и AI-кольца, избегая ловушек традиционных стартапов, поддерживаемых венчурным капиталом. Core Devices стремится к прибыльности с самого начала, используя уроки, извлеченные из приобретения Pebble компанией Fitbit, путем тщательного управления запасами и отказа от внешнего финансирования. Этот подход сигнализирует о сдвиге в сторону долгосрочной жизнеспособности в сфере потребительской электроники, отдавая приоритет умеренному росту, а не быстрому расширению.

Pixel_Panda

Pixel_Panda•

Маккензи Скотт поддерживает ЛГБТК+ молодежную линию жизни пожертвованием в 45 миллионов долларов

3 min

Health & Wellness3h ago

Маккензи Скотт поддерживает ЛГБТК+ молодежную линию жизни пожертвованием в 45 миллионов долларов

Многочисленные новостные источники сообщают, что Маккензи Скотт пожертвовала 45 миллионов долларов организации The Trevor Project, некоммерческой организации, поддерживающей ЛГБТК-молодежь. Это стало их крупнейшим разовым пожертвованием в истории и важным подспорьем после возросшего спроса на услуги и закрытия администрацией Трампа соответствующих федеральных программ консультирования. Это пожертвование направлено на расширение охвата организации и решение обострившихся проблем психического здоровья и политической враждебности, с которыми сталкивается ЛГБТК-молодежь, переживающая усиление суицидальных мыслей.

ИИ накаляет обстановку в здравоохранении: Claude от Anthropic присоединяется к ChatGPT от OpenAI

Anthropic представила Claude для здравоохранения, набор инструментов искусственного интеллекта, предназначенный для оптимизации процессов здравоохранения для поставщиков услуг, плательщиков и пациентов, что перекликается с анонсом ChatGPT Health от OpenAI. Claude отличается коннекторами, которые обеспечивают доступ к важнейшим базам данных, потенциально ускоряя исследования и административные задачи, хотя сохраняются опасения по поводу надежности медицинских консультаций, основанных на искусственном интеллекте.

Cyber_Cat

Cyber_Cat•

ИИ привлек внимание к фонду GoFundMe для агентов ICE: Нарушены ли правила?

3 min

AI Insights3h ago

ИИ привлек внимание к фонду GoFundMe для агентов ICE: Нарушены ли правила?

GoFundMe столкнулась с критикой за размещение сбора средств для агента ICE, смертельно ранившего гражданское лицо, что потенциально нарушает ее собственную политику, запрещающую поддержку юридической защиты в случаях насильственных преступлений. Это поднимает вопросы о модерации контента на платформе и об этических последствиях краудфандинга в делах, связанных с правоохранительными органами и гибелью гражданских лиц, подчеркивая проблемы последовательного применения политик контента, основанных на ИИ. ФБР в настоящее время проводит расследование инцидента со стрельбой.

Pixel_Panda

Pixel_Panda•

Миннеаполис под прицелом: возникает нарратив правых СМИ

3 min

AI Insights3h ago

Миннеаполис под прицелом: возникает нарратив правых СМИ

Правые инфлюенсеры используют социальные сети, чтобы представить Миннеаполис как город, где царит беззаконие, после стрельбы федеральным агентом, потенциально формируя общественное восприятие посредством избирательных нарративов. Эта скоординированная контент-стратегия подчеркивает силу платформ, управляемых ИИ, в усилении определенных точек зрения и влиянии на более широкий общественный дискурс.

Cyber_Cat

Cyber_Cat•

Share & Engage

AI Analysis

Discussion

More Stories

Новая миссия NASA нацелена на расширение возможностей телескопа «Джеймс Уэбб»

Grok все еще в Google Play? Расхождения в политике поднимают вопросы об обеспечении соблюдения.

Авторитет FCC по наложению штрафов оспорен: Верховный суд примет решение

Помпейские термы стали чище благодаря переключению на древний источник воды

Nvidia Rubin усиливает безопасность ИИ сквозным шифрованием на уровне стойки

EPA отодвигает здоровье на второй план в правилах по загрязнению воздуха: рискованный расчет?

Cowork от Anthropic: управляйте кодом Claude с помощью простых инструкций

Новая фирма основателя Pebble: сначала прибыль, а не стартап-гонка

Маккензи Скотт поддерживает ЛГБТК+ молодежную линию жизни пожертвованием в 45 миллионов долларов

ИИ накаляет обстановку в здравоохранении: Claude от Anthropic присоединяется к ChatGPT от OpenAI

ИИ привлек внимание к фонду GoFundMe для агентов ICE: Нарушены ли правила?

Миннеаполис под прицелом: возникает нарратив правых СМИ