AIシステムのドキュメント理解を強化する新たなアプローチが登場
企業は内部知識を活用するためにRetrieval-Augmented Generation(RAG)システムを導入するケースが増えていますが、複雑なドキュメントを正確に処理する上では課題が残っています。VentureBeatによると、RAGは「PDFをインデックス化し、LLMを接続して、企業の知識を即座に民主化する」と期待されていますが、複雑なドキュメントに依存する業界にとっては、現実は理想とはかけ離れたものとなっています。
標準的なRAGパイプラインでは、ドキュメントを単純なテキスト文字列として扱い、「固定サイズチャンキング」のような手法を使用することが多く、テーブルを分割したり、キャプションを切り離したり、視覚的な階層を無視したりすることで、技術マニュアルのロジックを破壊する可能性があるとVentureBeatは報じています。これにより、エンジニアが特定の質問をした際に不正確な結果が生じ、AIが「幻覚」を引き起こす可能性があります。
これらの制限に対処するために、新しいフレームワークが開発されています。その一つであるPageIndexは、ドキュメント検索を検索問題ではなくナビゲーション問題として扱うという異なるアプローチを採用しているとVentureBeatは述べています。PageIndexは、標準的な「チャンク&エンベッド」の手法を完全に放棄しています。このフレームワークは、ベクトル検索が失敗したドキュメントで98.7%の精度を達成したとVentureBeatは指摘しています。
改善されたドキュメント理解の必要性は、企業が財務諸表の監査、法的契約の分析、医薬品プロトコルのナビゲートなど、リスクの高いワークフローでRAGを使用しようとする場合に特に深刻であるとVentureBeatは報じています。問題はLLMにあるのではなく、前処理にあるのです。
ドキュメント処理以外にも、他の科学的進歩が起きています。Ars Technicaによると、うつ病の代替治療などの分野で研究が続けられており、コーヒー1杯の方がサイケデリックドラッグのマイクロドージングよりも良い結果をもたらす可能性を示唆する研究があります。さらに、科学者たちは、フンギを潜在的な殺虫剤として利用することを模索しており、カブトムシやシロアリなどの木材を食い荒らす昆虫を駆除するための、従来の手段よりも有害性の低い代替手段を提供しているとArs Technicaは報じています。
Discussion
AI Experts & Community
Be the first to comment