Las empresas lidian con las limitaciones de los sistemas RAG al manejar documentos complejos
Las empresas están adoptando cada vez más los sistemas de Generación Aumentada por Recuperación (RAG, por sus siglas en inglés) para aprovechar sus datos internos con los Modelos de Lenguaje Grandes (LLM, por sus siglas en inglés), pero muchas están descubriendo que estos sistemas tienen dificultades con documentos sofisticados, según VentureBeat. El problema radica principalmente en la etapa de preprocesamiento, donde las canalizaciones RAG estándar a menudo tratan los documentos como cadenas de texto planas, lo que lleva a la pérdida de información crucial.
Los sistemas RAG tienen como objetivo basar los LLM en datos propietarios, lo que permite a las empresas automatizar los flujos de trabajo, respaldar la toma de decisiones y operar de forma semiautónoma. Sin embargo, la dependencia de la "fragmentación de tamaño fijo", que implica cortar los documentos en segmentos arbitrarios, puede ser perjudicial cuando se trata de manuales técnicos y otros documentos complejos, informó VentureBeat. Este método separa los subtítulos de las imágenes, corta las tablas por la mitad y no tiene en cuenta la jerarquía visual de la página.
Según VentureBeat, el fallo no está en el LLM en sí, sino en la forma en que se preparan los documentos para el análisis. Dippu Kumar Singh escribió en VentureBeat que la promesa de indexar archivos PDF y democratizar instantáneamente el conocimiento corporativo ha sido decepcionante para las industrias que dependen de la ingeniería pesada. Los ingenieros que hacen preguntas específicas sobre la infraestructura han descubierto que el bot alucina las respuestas.
Varun Raj escribió en VentureBeat que los fallos en la recuperación se propagan directamente al riesgo empresarial una vez que se implementan los sistemas de IA. El contexto obsoleto, las rutas de acceso no controladas y las canalizaciones de recuperación mal evaluadas pueden socavar la confianza, el cumplimiento y la fiabilidad operativa, añadió Raj. Reformula la recuperación como infraestructura en lugar de lógica de aplicación.
Las limitaciones de los sistemas RAG actuales resaltan la necesidad de técnicas de preprocesamiento más sofisticadas que puedan preservar la estructura y el contexto de los documentos complejos. Mejorar la fiabilidad de RAG no se trata de ajustar el LLM; se trata de garantizar que el sistema comprenda los documentos que está procesando.
Discussion
AI Experts & Community
Be the first to comment