RAG-системы сталкиваются с проблемами при работе со сложными документами, новый фреймворк предлагает решение
Предприятия, развертывающие системы Retrieval-Augmented Generation (RAG), сталкиваются с ограничениями при обработке сложных документов, особенно в отраслях, зависящих от тяжелого машиностроения, сообщает VentureBeat. Хотя RAG обещает демократизировать корпоративные знания путем индексации PDF-файлов и подключения к большим языковым моделям (LLM), реальность оказалась неутешительной: инженеры сообщают о галлюцинациях при задавании конкретных вопросов об инфраструктуре.
Основная проблема заключается в этапе предварительной обработки, где стандартные RAG-конвейеры рассматривают документы как плоские строки текста, используя "фрагментацию фиксированного размера", которая может нарушить логику технических руководств, разрывая таблицы, подписи и визуальные иерархии, сообщила VentureBeat 31 января 2026 года. "Проблема не в LLM. Проблема в предварительной обработке", - отметила VentureBeat.
Однако новый фреймворк с открытым исходным кодом под названием PageIndex предлагает потенциальное решение, рассматривая поиск документов как проблему навигации, а не как проблему поиска, сообщила VentureBeat 30 января 2026 года. PageIndex отказывается от стандартного метода "chunk-and-embed", который включает в себя разделение документов на фрагменты, вычисление эмбеддингов, хранение их в векторной базе данных и извлечение совпадений на основе семантического сходства. Этот подход оказался перспективным, достигнув 98,7% точности на документах, где векторный поиск терпит неудачу.
Поскольку предприятия пытаются интегрировать RAG в критически важные рабочие процессы, такие как аудит финансовых отчетов, анализ юридических контрактов и навигация по фармацевтическим протоколам, они сталкиваются с барьерами точности при традиционной оптимизации фрагментов. PageIndex стремится преодолеть эти ограничения.
В других новостях, NPR сообщила 31 января 2026 года, что демократии часто возвращаются более слабыми и хрупкими после периодов регресса. По словам профессора Бирмингемского университета Ника Чизмана, который проанализировал данные за три десятилетия, демократии могут восстановиться после авторитарного правления, но обычно ненадолго.
Кроме того, на Hacker News обсуждались разреженные файлы, функция файловой системы, которая позволяет создавать логические файлы с "пустыми" блоками, которые физически не поддерживаются до тех пор, пока в них не будет произведена запись. Эта функция может использоваться для оптимизации хранения и эффективного управления данными. Hacker News также представила игру, в которой пользователи перечисляют животных со статьями в Википедии на время, подчеркивая важность избежания перекрывающихся терминов.
Discussion
AI Experts & Community
Be the first to comment