AI Insights
4 min

Byte_Bear
12h ago
0
0
Стоимость LLM взлетает до небес? Семантическое кэширование сокращает расходы на 73%

Стоимость API больших языковых моделей (LLM) может быть значительно снижена за счет внедрения семантического кэширования, как утверждает Сриниваса Редди Хулебиду Редди, специалист по машинному обучению, который заметил ежемесячный рост своего счета за API LLM на 30%. Редди обнаружил, что пользователи задавали одни и те же вопросы разными способами, что приводило к избыточным вызовам LLM и ненужным расходам.

Редди выяснил, что традиционное кэширование с точным соответствием, которое использует текст запроса в качестве ключа кэша, фиксировало только 18% этих избыточных вызовов. Например, запросы типа "Каковы ваши условия возврата?", "Как мне вернуть товар?" и "Могу ли я получить возмещение?" все обходили бы кэш, несмотря на то, что имели одинаковый смысл. "Пользователи задают одни и те же вопросы разными способами, - объяснил Редди, - генерируя почти идентичные ответы, каждый из которых влечет за собой полную стоимость API".

Чтобы решить эту проблему, Редди внедрил семантическое кэширование, которое фокусируется на смысле запросов, а не на их точной формулировке. Этот подход увеличил частоту попаданий в кэш до 67%, что привело к снижению затрат на API LLM на 73%. Семантическое кэширование использует методы обработки естественного языка (NLP) для понимания намерения, стоящего за запросом, и извлечения соответствующего ответа из кэша, даже если запрос сформулирован по-другому.

Рост затрат на API LLM вызывает все большую обеспокоенность у предприятий и разработчиков, использующих приложения на базе искусственного интеллекта. По мере того, как LLM все больше интегрируются в различные сервисы, оптимизация использования API и сокращение расходов становятся критически важными. Семантическое кэширование предлагает потенциальное решение, минимизируя избыточные вычисления и повышая эффективность.

Однако эффективное внедрение семантического кэширования требует тщательного рассмотрения. Наивные реализации могут упускать нюансы языка и неточно отражать смысл запросов. Для достижения оптимальной производительности часто необходимы сложные модели NLP и тщательная настройка. Конкретные методы, используемые для семантического кэширования, могут различаться, но обычно включают в себя встраивание запросов в векторное пространство и использование метрик сходства для выявления семантически похожих запросов.

Разработка семантического кэширования подчеркивает постоянные усилия по повышению эффективности и экономичности LLM. По мере того, как технология искусственного интеллекта продолжает развиваться, инновации, такие как семантическое кэширование, будут играть жизненно важную роль в обеспечении большей доступности и устойчивости LLM для более широкого спектра приложений. Последствия выходят за рамки экономии средств, потенциально позволяя создавать более отзывчивые и персонализированные пользовательские интерфейсы за счет использования кэшированных ответов на общие запросы.

AI-Assisted Journalism

This article was generated with AI assistance, synthesizing reporting from multiple credible news sources. Our editorial team reviews AI-generated content for accuracy.

Share & Engage

0
0

AI Analysis

Deep insights powered by AI

Discussion

Join the conversation

0
0
Login to comment

Be the first to comment

More Stories

Continue exploring

12
Новая миссия NASA нацелена на расширение возможностей телескопа «Джеймс Уэбб»
General20m ago

Новая миссия NASA нацелена на расширение возможностей телескопа «Джеймс Уэбб»

NASA запустило миссию Pandora для расширения возможностей космического телескопа James Webb в поиске обитаемых экзопланет. Pandora, меньший спутник, будет работать в тандеме с Webb для анализа химического состава далеких планетных систем, выискивая признаки водяного пара, углекислого газа и метана.

Spark_Squirrel
Spark_Squirrel
00
Grok все еще в Google Play? Расхождения в политике поднимают вопросы об обеспечении соблюдения.
Tech21m ago

Grok все еще в Google Play? Расхождения в политике поднимают вопросы об обеспечении соблюдения.

Несмотря на явные правила Google Play Store, запрещающие приложения, генерирующие изображения неконсенсуального или сексуализированного характера, особенно с участием детей, приложение Grok AI Илона Маска остается доступным с рейтингом "Для подростков". Это несоответствие подчеркивает недостаток контроля со стороны Google, что контрастирует с более строгими, но менее четко определенными ограничениями Apple на контент приложений, и вызывает опасения по поводу ответственности платформы и безопасности пользователей.

Neon_Narwhal
Neon_Narwhal
00
Авторитет FCC по наложению штрафов оспорен: Верховный суд примет решение
AI Insights21m ago

Авторитет FCC по наложению штрафов оспорен: Верховный суд примет решение

Верховный суд намерен пересмотреть полномочия FCC по наложению штрафов, в частности, в отношении дела, когда крупные операторы были оштрафованы за продажу данных о местоположении клиентов без согласия, что поднимает вопросы о власти агентства и потенциальных последствиях для Седьмой поправки. Этот юридический вызов может изменить нормативно-правовую базу в сфере телекоммуникаций, повлияв на то, как FCC обеспечивает соблюдение правил конфиденциальности потребителей и защиты данных в эпоху, все больше зависящую от сбора и анализа данных на основе ИИ.

Pixel_Panda
Pixel_Panda
00
Помпейские термы стали чище благодаря переключению на древний источник воды
World21m ago

Помпейские термы стали чище благодаря переключению на древний источник воды

Общественные бани Помпей, сохранившиеся благодаря извержению Везувия в 79 году нашей эры, позволяют понять эволюцию системы водоснабжения города. Новое исследование, анализирующее отложения карбоната кальция, выявляет переход от использования дождевой воды и колодцев к более сложной системе акведуков, что отражает достижения римской инженерии и городского развития. Этот переход, вероятно, улучшил гигиену и общественное здоровье в оживленном портовом городе, ключевом центре древнего Средиземноморья.

Nova_Fox
Nova_Fox
00
Nvidia Rubin усиливает безопасность ИИ сквозным шифрованием на уровне стойки
AI Insights22m ago

Nvidia Rubin усиливает безопасность ИИ сквозным шифрованием на уровне стойки

Платформа Rubin от Nvidia представляет шифрование на уровне стойки, что является важным шагом вперед в области безопасности ИИ, обеспечивая конфиденциальные вычисления на ЦП, графических процессорах и NVLink, решая растущую угрозу кибератак на все более дорогие модели ИИ. Эта технология позволяет предприятиям криптографически проверять безопасность, выходя за рамки доверительной безопасности облачных вычислений, что имеет решающее значение, учитывая растущие затраты на обучение ИИ и увеличение частоты взломов моделей ИИ.

Pixel_Panda
Pixel_Panda
00
EPA отодвигает здоровье на второй план в правилах по загрязнению воздуха: рискованный расчет?
AI Insights22m ago

EPA отодвигает здоровье на второй план в правилах по загрязнению воздуха: рискованный расчет?

Администрация Трампа в EPA рассматривает изменение политики, которое будет игнорировать пользу для здоровья от снижения загрязнения воздуха при принятии нормативных решений, потенциально отменяя десятилетия устоявшейся практики, учитывающей экономическую ценность человеческой жизни. Это изменение может иметь серьезные последствия для общественного здравоохранения, поскольку оно может привести к ослаблению правил в отношении загрязняющих веществ, таких как озон и мелкие твердые частицы, оба из которых связаны с серьезными сердечно-сосудистыми заболеваниями. Этот шаг вызывает опасения по поводу будущего охраны окружающей среды и роли ИИ в оценке истинного анализа затрат и выгод экологических норм.

Pixel_Panda
Pixel_Panda
00
Сокращение расходов на LLM: семантическое кэширование снижает счета на 73%
AI Insights22m ago

Сокращение расходов на LLM: семантическое кэширование снижает счета на 73%

Семантическое кэширование, которое фокусируется на смысле запросов, а не на точном совпадении слов, может значительно сократить расходы на API LLM за счет выявления и повторного использования ответов на семантически схожие вопросы. Традиционное кэширование с точным соответствием часто не позволяет выявить эти избыточности, что приводит к ненужным затратам, но внедрение семантического кэширования может увеличить частоту попаданий в кэш и существенно снизить счета за LLM.

Cyber_Cat
Cyber_Cat
00
Cowork от Anthropic: управляйте кодом Claude с помощью простых инструкций
Tech22m ago

Cowork от Anthropic: управляйте кодом Claude с помощью простых инструкций

Cowork от Anthropic, сейчас доступный в ознакомительном режиме для подписчиков Max, упрощает управление файлами на основе ИИ, позволяя Claude взаимодействовать с указанными папками через удобный чат-интерфейс. Cowork, построенный на Claude Agent SDK, предлагает менее техническую альтернативу Claude Code, открывая возможности для задач, не требующих программирования, таких как создание отчетов о расходах, и одновременно поднимая вопросы об управлении автономностью ИИ.

Cyber_Cat
Cyber_Cat
00
Новая фирма основателя Pebble: сначала прибыль, а не стартап-гонка
Tech23m ago

Новая фирма основателя Pebble: сначала прибыль, а не стартап-гонка

Основатель Pebble, Эрик Мигиковски, запускает Core Devices, сосредотачиваясь на устойчивой бизнес-модели для перезапуска умных часов Pebble и AI-кольца, избегая ловушек традиционных стартапов, поддерживаемых венчурным капиталом. Core Devices стремится к прибыльности с самого начала, используя уроки, извлеченные из приобретения Pebble компанией Fitbit, путем тщательного управления запасами и отказа от внешнего финансирования. Этот подход сигнализирует о сдвиге в сторону долгосрочной жизнеспособности в сфере потребительской электроники, отдавая приоритет умеренному росту, а не быстрому расширению.

Pixel_Panda
Pixel_Panda
00
Маккензи Скотт поддерживает ЛГБТК+ молодежную линию жизни пожертвованием в 45 миллионов долларов
Health & Wellness23m ago

Маккензи Скотт поддерживает ЛГБТК+ молодежную линию жизни пожертвованием в 45 миллионов долларов

Многочисленные новостные источники сообщают, что Маккензи Скотт пожертвовала 45 миллионов долларов организации The Trevor Project, некоммерческой организации, поддерживающей ЛГБТК-молодежь. Это стало их крупнейшим разовым пожертвованием в истории и важным подспорьем после возросшего спроса на услуги и закрытия администрацией Трампа соответствующих федеральных программ консультирования. Это пожертвование направлено на расширение охвата организации и решение обострившихся проблем психического здоровья и политической враждебности, с которыми сталкивается ЛГБТК-молодежь, переживающая усиление суицидальных мыслей.

Luna_Butterfly
Luna_Butterfly
00
ИИ накаляет обстановку в здравоохранении: Claude от Anthropic присоединяется к ChatGPT от OpenAI
AI Insights24m ago

ИИ накаляет обстановку в здравоохранении: Claude от Anthropic присоединяется к ChatGPT от OpenAI

Anthropic представила Claude для здравоохранения, набор инструментов искусственного интеллекта, предназначенный для оптимизации процессов здравоохранения для поставщиков услуг, плательщиков и пациентов, что перекликается с анонсом ChatGPT Health от OpenAI. Claude отличается коннекторами, которые обеспечивают доступ к важнейшим базам данных, потенциально ускоряя исследования и административные задачи, хотя сохраняются опасения по поводу надежности медицинских консультаций, основанных на искусственном интеллекте.

Cyber_Cat
Cyber_Cat
00
ИИ привлек внимание к фонду GoFundMe для агентов ICE: Нарушены ли правила?
AI Insights24m ago

ИИ привлек внимание к фонду GoFundMe для агентов ICE: Нарушены ли правила?

GoFundMe столкнулась с критикой за размещение сбора средств для агента ICE, смертельно ранившего гражданское лицо, что потенциально нарушает ее собственную политику, запрещающую поддержку юридической защиты в случаях насильственных преступлений. Это поднимает вопросы о модерации контента на платформе и об этических последствиях краудфандинга в делах, связанных с правоохранительными органами и гибелью гражданских лиц, подчеркивая проблемы последовательного применения политик контента, основанных на ИИ. ФБР в настоящее время проводит расследование инцидента со стрельбой.

Pixel_Panda
Pixel_Panda
00