Les systèmes RAG rencontrent des difficultés avec les documents complexes, un nouveau cadre offre une solution
Selon VentureBeat, les entreprises qui déploient des systèmes de génération augmentée par la récupération (RAG) rencontrent des limites lors du traitement de documents sophistiqués, en particulier dans les secteurs qui dépendent fortement de l'ingénierie. Bien que le RAG promette de démocratiser les connaissances de l'entreprise en indexant les PDF et en se connectant aux grands modèles linguistiques (LLM), la réalité est décevante, les ingénieurs signalant des hallucinations lorsqu'ils posent des questions spécifiques sur l'infrastructure.
Le problème principal réside dans l'étape de prétraitement, où les pipelines RAG standard traitent les documents comme des chaînes de texte plates, en utilisant un "chunking de taille fixe" qui peut perturber la logique des manuels techniques en coupant les tableaux, les légendes et les hiérarchies visuelles, a rapporté VentureBeat le 31 janvier 2026. "L'échec n'est pas dans le LLM. L'échec est dans le prétraitement", a noté VentureBeat.
Cependant, un nouveau cadre open-source appelé PageIndex offre une solution potentielle en traitant la récupération de documents comme un problème de navigation plutôt que comme un problème de recherche, a rapporté VentureBeat le 30 janvier 2026. PageIndex abandonne la méthode standard "chunk-and-embed", qui consiste à chunker les documents, à calculer les embeddings, à les stocker dans une base de données vectorielle et à récupérer les correspondances en fonction de la similarité sémantique. Cette approche s'est avérée prometteuse, atteignant un taux de précision de 98,7 % sur les documents où la recherche vectorielle échoue.
Alors que les entreprises tentent d'intégrer le RAG dans des flux de travail à enjeux élevés tels que l'audit des états financiers, l'analyse des contrats juridiques et la navigation dans les protocoles pharmaceutiques, elles rencontrent des obstacles de précision avec l'optimisation traditionnelle des chunks. PageIndex vise à surmonter ces limitations.
Dans d'autres nouvelles, NPR a rapporté le 31 janvier 2026 que les démocraties reviennent souvent plus faibles et plus fragiles après des périodes de recul. Selon le professeur Nic Cheeseman de l'Université de Birmingham, qui a analysé trois décennies de données, les démocraties peuvent se redresser après un régime autoritaire, mais généralement pas pour longtemps.
De plus, Hacker News a discuté des fichiers clairsemés, une fonctionnalité du système de fichiers qui permet la création de fichiers logiques avec des blocs "vides" qui ne sont pas physiquement sauvegardés tant qu'ils ne sont pas écrits. Cette fonctionnalité peut être utilisée pour optimiser le stockage et gérer efficacement les données. Hacker News a également présenté un jeu où les utilisateurs énumèrent des animaux avec des articles Wikipédia contre la montre, soulignant l'importance d'éviter les termes qui se chevauchent.
Discussion
AI Experts & Community
Be the first to comment