AI Insights
4 min

Cyber_Cat
4h ago
2
0
Сокращение расходов на LLM: семантическое кэширование снижает счета на 73%

Затраты на API больших языковых моделей (LLM) можно значительно сократить, внедрив семантическое кэширование. К такому выводу пришел Сриниваса Редди Хулебиду Редди, который обнаружил, что счет его компании за API LLM растет на 30% ежемесячно. Редди выяснил, что пользователи задают одни и те же вопросы разными способами, что приводит к избыточным вызовам LLM и завышенным затратам.

Анализ журналов запросов, проведенный Редди, показал, что пользователи часто перефразируют одни и те же вопросы. Например, запросы типа "Каковы ваши условия возврата?", "Как мне вернуть товар?" и "Могу ли я получить возмещение?" вызывали практически идентичные ответы от LLM, но каждый из них приводил к отдельным затратам на API.

Традиционное кэширование с точным соответствием, которое использует текст запроса в качестве ключа кэша, оказалось неэффективным для решения этой проблемы. "Кэширование с точным соответствием захватывало только 18% этих избыточных вызовов", - заявил Редди. "Один и тот же семантический вопрос, сформулированный по-другому, полностью обходил кэш".

Чтобы преодолеть это ограничение, Редди внедрил семантическое кэширование, которое фокусируется на смысле запросов, а не на их точном формулировании. Этот подход увеличил коэффициент попадания в кэш до 67%, что привело к снижению затрат на API LLM на 73%. Семантическое кэширование идентифицирует запросы со схожим смыслом и извлекает соответствующий ответ из кэша, избегая ненужных вызовов LLM.

Эта разработка подчеркивает растущую обеспокоенность среди организаций, использующих LLM: управление растущими затратами, связанными с использованием API. По мере того, как LLM все больше интегрируются в различные приложения, оптимизация их эффективности и сокращение расходов становятся крайне важными. Семантическое кэширование представляет собой одну из таких стратегий оптимизации.

Хотя семантическое кэширование предлагает значительные преимущества, его эффективное внедрение требует тщательного рассмотрения. Наивные реализации могут упускать тонкие нюансы в запросах пользователей, что приводит к неточным попаданиям в кэш и потенциально неверным ответам.

Рост LLM стимулировал инновации в методах кэширования, переходя от простого сопоставления на основе текста к более сложным методам, которые понимают основной смысл пользовательского ввода. Этот сдвиг отражает более широкую тенденцию в развитии ИИ, где алгоритмы становятся все более искусными в понимании и интерпретации человеческого языка. Разработка семантического кэширования является частью более широкой тенденции оптимизации инфраструктуры ИИ, чтобы сделать ее более эффективной и экономичной. По мере того, как LLM продолжают развиваться и получать все более широкое распространение, такие методы, как семантическое кэширование, будут играть все более важную роль в управлении связанными с ними затратами.

AI-Assisted Journalism

This article was generated with AI assistance, synthesizing reporting from multiple credible news sources. Our editorial team reviews AI-generated content for accuracy.

Share & Engage

2
0

AI Analysis

Deep insights powered by AI

Discussion

Join the conversation

0
0
Login to comment

Be the first to comment

More Stories

Continue exploring

12
Январские Технологические Скидки Walmart в 2026: Раскрыты Ранние Промокоды
Tech4h ago

Январские Технологические Скидки Walmart в 2026: Раскрыты Ранние Промокоды

Walmart предлагает значительную экономию благодаря регулярно обновляемым флэш-распродажам со скидками до 65% на различные товары, включая технику и бытовые приборы. Подписочный сервис ритейлера, Walmart , предоставляет дополнительные преимущества, такие как ранний доступ к распродажам и бесплатная доставка, стремясь повысить удобство и ценность для клиентов.

Cyber_Cat
Cyber_Cat
00
Получите Большие Скидки: Скидки на Hoka, Verizon и TurboTax Упадут в Январе 2026!
AI Insights4h ago

Получите Большие Скидки: Скидки на Hoka, Verizon и TurboTax Упадут в Январе 2026!

Кроссовки для бега Hoka, популярные с 2009 года, испытали всплеск популярности во время пандемии и предлагают стимулы для новых и существующих клиентов, включая скидки до 30% на избранные модели и бесплатную ускоренную доставку для новых подписчиков по электронной почте/SMS, как сообщается в различных источниках. Hoka также вознаграждает участников скидкой в 10 долларов США на следующую покупку при регистрации по электронной почте.

Pixel_Panda
Pixel_Panda
00
FCC отменила правило разблокировки: останутся ли клиенты Verizon заблокированными?
AI Insights4h ago

FCC отменила правило разблокировки: останутся ли клиенты Verizon заблокированными?

Федеральная комиссия по связи (FCC) предоставила Verizon отказ от обязательного автоматического разблокирования телефонов через 60 дней, что потенциально затруднит клиентам смену оператора. Это решение переводит политику разблокировки Verizon на добровольный кодекс CTIA, требующий от клиентов запроса на разблокировку после выполнения условий контракта, что вызывает опасения по поводу выбора потребителей и конкуренции на рынке мобильной связи.

Pixel_Panda
Pixel_Panda
00
Торвальдс из Linux пробует кодирование с помощью ИИ для "атмосферы"
Tech4h ago

Торвальдс из Linux пробует кодирование с помощью ИИ для "атмосферы"

Линус Торвальдс использовал инструмент для кодирования на основе ИИ, вероятно, Gemini от Google через Antigravity IDE, для создания аудиовизуализатора на Python в рамках своего хобби-проекта AudioNoise, демонстрируя ограниченное погружение в разработку с помощью ИИ. Хотя Торвальдс признает полезность инструмента для конкретных задач, его более широкий взгляд подчеркивает потенциал ИИ в сопровождении и проверке кода, а не в полном создании кода, что отражает прагматичный подход к интеграции ИИ в разработку программного обеспечения. Этот эксперимент подчеркивает развивающуюся роль ИИ в оказании помощи даже опытным разработчикам с незнакомыми языками или задачами.

Hoppi
Hoppi
10
Paramount подает в суд, чтобы заблокировать сделку WBD с Netflix на 83 миллиарда долларов; Ценовой спор обостряется
Business4h ago

Paramount подает в суд, чтобы заблокировать сделку WBD с Netflix на 83 миллиарда долларов; Ценовой спор обостряется

Paramount подала в суд на Warner Bros. Discovery (WBD) в суде штата Делавэр, оспаривая сделку WBD на сумму 82,7 миллиарда долларов по продаже своих стриминговых и кинобизнесов Netflix. Paramount, которая сделала враждебное предложение о поглощении WBD на сумму 108,4 миллиарда долларов, утверждает, что WBD не предоставила достаточного обоснования отклонения предложения Paramount, которое, по ее утверждению, превосходит оценку Netflix в 27,72 доллара за акцию. Paramount добивается прозрачности методов оценки WBD, чтобы повлиять на акционеров до крайнего срока 21 января.

Cyber_Cat
Cyber_Cat
00
FCC отменила правило разблокировки: что это значит для вашего телефона Verizon
AI Insights4h ago

FCC отменила правило разблокировки: что это значит для вашего телефона Verizon

Федеральная комиссия по связи (FCC) предоставила Verizon отказ от обязательного автоматического разблокирования телефонов через 60 дней, что потенциально затруднит переход клиентов к другим операторам. Это решение приводит политику разблокировки Verizon в соответствие с добровольным кодексом CTIA, требующим от клиентов запрашивать разблокировку после выполнения условий контракта или ожидания до года для предоплаченных устройств, что вызывает опасения по поводу выбора потребителей и конкуренции на рынке. FCC считает, что кодекс CTIA обеспечивает адекватную защиту потребителей, но долгосрочное влияние на конкуренцию в сфере мобильных телефонов еще предстоит увидеть.

Pixel_Panda
Pixel_Panda
00
Торвальдс из Linux пробует себя в AI-кодировании для аудиопроекта
Tech4h ago

Торвальдс из Linux пробует себя в AI-кодировании для аудиопроекта

Линус Торвальдс использовал инструмент для написания кода на базе ИИ, вероятно, Gemini от Google через Antigravity IDE, для создания аудиовизуализатора на Python в своем хобби-проекте AudioNoise, демонстрируя ограниченное применение ИИ в разработке. Хотя Торвальдс видит потенциал ИИ для поддержки и проверки кода, этот проект подчеркивает полезность ИИ для конкретных задач, а не для полного изменения его подхода к кодированию. Это исследование отражает растущую интеграцию инструментов ИИ в разработку программного обеспечения, даже для создателей, известных своими традиционными методами.

Pixel_Panda
Pixel_Panda
00
Забронируйте проживание в лунном отеле сейчас за 250 тысяч долларов!
AI Insights4h ago

Забронируйте проживание в лунном отеле сейчас за 250 тысяч долларов!

Многочисленные источники новостей сообщают, что GRU Space, стартап, основанный недавним выпускником Калифорнийского университета в Беркли, принимает заявки на бронирование лунного отеля, вдохновленного Дворцом изящных искусств в Сан-Франциско, с депозитами от 250 000 до 1 миллиона долларов за потенциальное проживание в течение шести лет. Несмотря на небольшой размер компании, этот амбициозный проект направлен на то, чтобы извлечь выгоду из долгосрочного потенциала лунного туризма, хотя его успех зависит от разработки и реализации.

Byte_Bear
Byte_Bear
00
Cowork от Anthropic: Claude AI теперь справляется с задачами на вашем рабочем столе
AI Insights4h ago

Cowork от Anthropic: Claude AI теперь справляется с задачами на вашем рабочем столе

Новая функция Cowork от Anthropic, встроенная в приложение Claude для macOS, расширяет функциональность Claude Code для общих офисных задач, предоставляя ИИ доступ к локальным папкам. Это позволяет пользователям автоматизировать такие задачи, как создание отчетов о расходах и организацию файлов, с помощью простых подсказок на естественном языке, снижая порог входа для рабочих процессов с использованием ИИ и потенциально преобразуя то, как работники умственного труда управляют цифровой информацией.

Byte_Bear
Byte_Bear
00
Paramount подает в суд, чтобы заблокировать сделку WBD-Netflix; ценовой спор обостряется
Business4h ago

Paramount подает в суд, чтобы заблокировать сделку WBD-Netflix; ценовой спор обостряется

Paramount подала в суд на Warner Bros. Discovery (WBD) в суде штата Делавэр, оспаривая сделку WBD с Netflix на сумму 82,7 миллиарда долларов и утверждая, что предложение Paramount в размере 108,4 миллиарда долларов наличными по 30 долларов за акцию является более выгодным. Иск направлен на обеспечение прозрачности оценки WBD своих глобальных сетей и сделки с Netflix, с целью повлиять на акционеров до истечения срока действия тендерного предложения Paramount 21 января.

Cyber_Cat
Cyber_Cat
00
Meta наращивает мощность ИИ: Цукерберг представляет масштабный вычислительный план
Tech4h ago

Meta наращивает мощность ИИ: Цукерберг представляет масштабный вычислительный план

Meta запускает Meta Compute, новую инициативу в области AI-инфраструктуры, чтобы значительно расширить свой энергетический след, потенциально достигнув сотен гигаватт, для поддержки разработки передовых AI-моделей. Этот стратегический шаг, возглавляемый такими руководителями, как Сантош Джанардхан, направлен на то, чтобы дать Meta конкурентное преимущество за счет специально созданной инфраструктуры, и, вероятно, повлияет на общее энергопотребление AI-индустрии.

Cyber_Cat
Cyber_Cat
00
Забронируйте проживание в лунном отеле сейчас всего за 250 тысяч долларов!
AI Insights4h ago

Забронируйте проживание в лунном отеле сейчас всего за 250 тысяч долларов!

Многочисленные источники новостей сообщают, что GRU Space, стартап, основанный недавним выпускником Калифорнийского университета в Беркли, теперь принимает бронирования с крупными депозитами на лунный отель, вдохновленный архитектурой Сан-Франциско, стремясь запустить лунный туризм в течение шести лет. Несмотря на небольшой размер компании, этот амбициозный проект отражает веру в долгосрочный потенциал космического туризма и может оказать значительное влияние на развивающуюся отрасль.

Pixel_Panda
Pixel_Panda
00