Растут затраты на LLM? Семантический кеш сокращает счета на 73%

AI Insights

3 min

Byte_BearAI

1h ago

Растут затраты на LLM? Семантический кеш сокращает счета на 73%

AI Insights

Views

Likes

Min Read

Sources

Согласно Сриниваса Редди Хулебиду Редди, затраты на API больших языковых моделей (LLM) можно значительно сократить, внедрив семантическое кэширование. Он обнаружил, что счет его компании за API LLM рос на 30% в месяц, несмотря на то, что трафик не увеличивался с той же скоростью. Редди выяснил, что пользователи задавали одни и те же вопросы разными способами, что приводило к избыточным вызовам LLM и ненужным затратам на API.

Анализ журналов запросов, проведенный Редди, показал, что пользователи часто перефразировали одни и те же вопросы. Например, запросы типа «Какова ваша политика возврата?», «Как мне что-нибудь вернуть?» и «Могу ли я получить возмещение?» вызывали почти идентичные ответы от LLM, но каждый запрос обрабатывался отдельно, что приводило к полным затратам на API.

Традиционное кэширование с точным соответствием, которое использует текст запроса в качестве ключа кэша, оказалось неэффективным для решения этой проблемы. «Кэширование с точным соответствием захватывало только 18% этих избыточных вызовов», — заявил Редди. «Один и тот же семантический вопрос, сформулированный по-другому, полностью обходил кэш».

Чтобы преодолеть это ограничение, Редди внедрил семантическое кэширование, которое фокусируется на значении запросов, а не на их точном формулировании. Этот подход увеличил коэффициент попадания в кэш до 67%, что привело к снижению затрат на API LLM на 73%. Семантическое кэширование идентифицирует запросы со схожим значением и извлекает соответствующий ответ из кэша, избегая избыточных вызовов LLM.

Эта разработка подчеркивает важность понимания поведения пользователей и оптимизации стратегий кэширования для эффективного управления затратами на API LLM. Поскольку LLM все больше интегрируются в различные приложения, семантическое кэширование предлагает ценное решение для организаций, стремящихся сократить расходы без ущерба для качества своих услуг.

AI-Assisted Journalism

This article was generated with AI assistance, synthesizing reporting from multiple credible news sources. Our editorial team reviews AI-generated content for accuracy.

Share & Engage

AI Analysis

Deep insights powered by AI

Discussion

Join the conversation

Be the first to comment

Вдохните новую жизнь в старые колонки со стримплеером Atonemo за 100 долларов

Streamplayer от Atonemo, по цене менее 100 долларов, — это компактное устройство, которое модернизирует старые колонки, добавляя современные возможности потоковой передачи, такие как AirPlay 2 и Chromecast, предлагая экономичный способ интеграции классических аудиосистем в современную подключенную экосистему. Эта инновация подчеркивает, как ИИ и технологии потоковой передачи меняют Hi-Fi индустрию, обеспечивая удобство без ущерба для качества существующего аудиооборудования, хотя пользователям могут потребоваться дополнительные кабели.

Cyber_Cat

Cyber_Cat•

Настольная игра сочетает физические и цифровые элементы на умном столе

3 min

AI Insights1h ago

Настольная игра сочетает физические и цифровые элементы на умном столе

Board предлагает новый подход к настольным играм, сочетая 24-дюймовый сенсорный планшет с физическими игровыми элементами, способствуя живому социальному взаимодействию. Несмотря на привлекательность разнообразных игр на старте и отсутствие абонентской платы, высокая цена в 700 долларов и ограниченное количество доступных игр вызывают вопросы о его долгосрочной ценности и потенциальном влиянии на развивающийся ландшафт цифровых и физических развлечений.

Byte_Bear

Byte_Bear•

Променад с ИИ: Беговая дорожка Urevo стирает грань между реальностью

3 min

AI Insights1h ago

Променад с ИИ: Беговая дорожка Urevo стирает грань между реальностью

Беговая дорожка Urevo SpaceWalk 5L предлагает доступный способ интегрировать движение в малоподвижные занятия, такие как просмотр телевизора или работа за столом стоя, способствуя физическому благополучию посредством упражнений с низкой нагрузкой. Это компактное устройство, выдерживающее вес до 136 кг и развивающее скорость до 6,4 км/ч, обеспечивает эффект полного погружения в виртуальные пешие прогулки, подчеркивая растущую тенденцию фитнес-решений на базе искусственного интеллекта, предназначенных для борьбы с малоподвижным образом жизни.

Cyber_Cat

Cyber_Cat•

План Microsoft по центрам обработки данных: Справедливые счета за электроэнергию для всех?

3 min

AI Insights1h ago

План Microsoft по центрам обработки данных: Справедливые счета за электроэнергию для всех?

Microsoft активно реагирует на обеспокоенность сообщества по поводу энергопотребления центров обработки данных, предлагая более высокие тарифы на электроэнергию для этих объектов и взаимодействуя с местными заинтересованными сторонами. Этот шаг отражает растущее осознание влияния инфраструктуры ИИ на общество и необходимость для технологических компаний быть ответственными соседями, особенно в отношении затрат на электроэнергию и управления ресурсами.

Byte_Bear

Byte_Bear•

Натрий-ионные аккумуляторы поддерживают технологический подъем Китая

3 min

Tech1h ago

Натрий-ионные аккумуляторы поддерживают технологический подъем Китая

Натрий-ионные аккумуляторы становятся перспективной альтернативой литий-ионной технологии, используя легкодоступный натрий для хранения энергии, что потенциально может произвести революцию в электромобилях и системах хранения энергии в электросетях. Недавняя выставка Consumer Electronics Show (CES) подчеркнула растущий оптимизм и инновации китайских технологических компаний, продемонстрировав их достижения и укрепив роль Китая в формировании будущего технологий.

Cyber_Cat

Cyber_Cat•

Paramount подает в суд, чтобы заблокировать сделку WBD-Netflix; Ценовой спор обостряется

3 min

Business1h ago

Paramount подает в суд, чтобы заблокировать сделку WBD-Netflix; Ценовой спор обостряется

Paramount обострила свое враждебное предложение о поглощении Warner Bros. Discovery (WBD) на сумму 108,4 миллиарда долларов, подав иск, чтобы оспорить сделку WBD на сумму 82,7 миллиарда долларов по продаже своих стриминговых и кинобизнесов Netflix. Иск Paramount направлен на обеспечение прозрачности оценки WBD сделки с Netflix и отклонения предложения Paramount в размере 30 долларов за акцию наличными, которое превышает предложение Netflix в размере 27,72 доллара за акцию. Юридические действия направлены на то, чтобы повлиять на акционеров WBD до 21 января, крайнего срока подачи акций.

Cowork от Anthropic: Claude AI теперь работает напрямую с вашими файлами

Anthropic представила Cowork, AI-агента для подписчиков Claude Max, который позволяет пользователям без технических навыков автоматизировать такие задачи, как создание отчетов о расходах, путем прямой обработки файлов, без необходимости программирования. Это позволяет Anthropic конкурировать с Copilot от Microsoft в сфере повышения производительности на основе AI, демонстрируя сдвиг в сторону практических AI-приложений для массовых пользователей, выходящих за рамки простого создания кода и написания креативных текстов.

Byte_Bear

Byte_Bear•

Забронируйте проживание в лунном отеле сейчас всего за 250 тысяч долларов!

3 min

AI Insights1h ago

Забронируйте проживание в лунном отеле сейчас всего за 250 тысяч долларов!

Многочисленные новостные источники сообщают, что GRU Space, стартап, основанный недавним выпускником Калифорнийского университета в Беркли, принимает заявки на бронирование мест в лунном отеле, вдохновленном Дворцом изящных искусств в Сан-Франциско, требуя депозиты от 250 000 до 1 миллиона долларов за потенциальное проживание в течение следующих шести лет. Несмотря на небольшой размер компании, этот амбициозный проект направлен на то, чтобы извлечь выгоду из долгосрочного потенциала лунного туризма, при этом основатель выражает приверженность идее сделать космос доступным для более широкой аудитории.

Cyber_Cat

Cyber_Cat•

Cowork от Anthropic: Claude AI теперь автоматизирует ваш рабочий стол

3 min

AI Insights1h ago

Cowork от Anthropic: Claude AI теперь автоматизирует ваш рабочий стол

Anthropic выпустила Cowork, удобную функцию в рамках своего десктопного приложения Claude, расширяющую возможности Claude Code за пределы разработки программного обеспечения до общих офисных задач. Предоставляя Claude доступ к локальным папкам, пользователи могут использовать ИИ для автоматизации таких задач, как создание отчетов о расходах и организация файлов, что потенциально повышает производительность для широкого круга работников умственного труда.

Byte_Bear

Byte_Bear•

Стоечное шифрование от Rubin: новая крепость для корпоративного ИИ

3 min

AI Insights1h ago

Стоечное шифрование от Rubin: новая крепость для корпоративного ИИ

Платформа Rubin от Nvidia представляет шифрование на уровне стойки, что является важным шагом вперед в области безопасности ИИ, обеспечивая конфиденциальные вычисления для всех критически важных компонентов и решая проблему растущей угрозы утечек моделей ИИ. Эта криптографическая верификация передает контроль безопасности предприятиям, что имеет решающее значение, учитывая растущие затраты на обучение ИИ и возрастающую сложность кибератак, нацеленных на ценные модели ИИ.

Cyber_Cat

Cyber_Cat•

Основатель Signal намерен перестроить ИИ с упором на конфиденциальность

3 min

AI Insights1h ago

Основатель Signal намерен перестроить ИИ с упором на конфиденциальность

Мокси Марлинспайк, создатель Signal, разрабатывает Confer, AI-ассистента с открытым исходным кодом, который уделяет приоритетное внимание конфиденциальности пользовательских данных посредством сквозного шифрования и проверяемого программного обеспечения с открытым исходным кодом. Эта инициатива направлена на установление нового стандарта, в котором взаимодействие с ИИ защищено от несанкционированного доступа, что отражает влияние Signal на приватный обмен сообщениями и решает растущие проблемы безопасности данных ИИ.

Cyber_Cat

Cyber_Cat•

Streamplayer: вдохните новую (умную) жизнь в старые колонки менее чем за 100 долларов

3 min

AI Insights2h ago

Streamplayer: вдохните новую (умную) жизнь в старые колонки менее чем за 100 долларов

Streamplayer от Atonemo, по цене менее 100 долларов, изобретательно модернизирует старые колонки, добавляя современные возможности потоковой передачи, такие как AirPlay 2 и Chromecast. Эта инновация решает проблему интеграции устаревших аудиосистем с современными беспроводными технологиями, предлагая экономичное решение для обновления существующих установок без ущерба для качества звука.

Cyber_Cat

Cyber_Cat•

Share & Engage

AI Analysis

Discussion

More Stories

Вдохните новую жизнь в старые колонки со стримплеером Atonemo за 100 долларов

Настольная игра сочетает физические и цифровые элементы на умном столе

Променад с ИИ: Беговая дорожка Urevo стирает грань между реальностью

План Microsoft по центрам обработки данных: Справедливые счета за электроэнергию для всех?

Натрий-ионные аккумуляторы поддерживают технологический подъем Китая

Paramount подает в суд, чтобы заблокировать сделку WBD-Netflix; Ценовой спор обостряется

Cowork от Anthropic: Claude AI теперь работает напрямую с вашими файлами

Забронируйте проживание в лунном отеле сейчас всего за 250 тысяч долларов!

Cowork от Anthropic: Claude AI теперь автоматизирует ваш рабочий стол

Стоечное шифрование от Rubin: новая крепость для корпоративного ИИ

Основатель Signal намерен перестроить ИИ с упором на конфиденциальность

Streamplayer: вдохните новую (умную) жизнь в старые колонки менее чем за 100 долларов