企業のAIドキュメント活用が停滞する理由
米国Adobe, Inc. デジタルメディア事業部 Document Cloud プロダクトマーケティングディレクター 山本晶子氏
──生成AIの導入で企業のPDFなどのコンテンツ活用の機運が高まりました。RAGの導入に取り組む企業もありましたが、成功事例となると限定的です。何がボトルネックだと見ていますか。
山本:まず、企業のデータの約80%は、データベースに格納されていない「非構造化データ」だということです。過去に蓄積された契約書やレポート、提案書といったドキュメント類がどこかに眠っている。私たちはこれを"お宝"と呼んでいるのですが、RAGを構築するにしても、この非構造化データをどう正確に抽出・解析するかという根本的な課題がクリアされていないケースが非常に多いんです。
──技術基盤だけでなく、現場の運用面にも壁がある?
山本:まさにそこです。大規模なRAGの仕組みを構築するにはIT部門のリソースが必要で、現場の担当者が手軽に始められるものではなかった。経営層からすると「コストをかけて導入したのに費用対効果が出ない」という問題が起きました。
PDF解析ツールの「精度差」はどこに現れるのか
──GoogleのNotebookLMなど、PDFをAIに読み込ませ解析するAIツールは増えてきました。アドビはこうしたツールとどう差別化されますか?
山本:もちろんサードパーティの製品には、それぞれ得意なことがあり、広範な情報を読み解くことにおいては優れている点があります。ただ、決定的に違うのは精度とドキュメントの構造理解です。
PDFは「フラットなもの」と思われがちですが、実は非常に複雑な構造を持っています。テキスト、画像、表、注釈といった要素が複数のレイヤーで構成されていて、それを正確に解析するのは実はかなり難しい。私たちは「PDF解析エンジン」と呼んでいる、アドビ独自の技術でこの構造を正確に読み解いています。AIの回答を業務判断に使う場合、引用元の示し方が重要になります。他のツールでも「この文書を参照しました」というところまでは示してくれますが、Acrobatの機能の一つであるAI アシスタントの場合は「このドキュメントの24ページ、2段落目」というレベルまで特定してくれます。実際に画面上で該当する段落がブルーのラインで囲まれるので、「ここに書いてありましたよ」というのが一目でわかる。たとえばAIが「この企業の売上は3兆円です」と回答したとき、その数字がどの文書のどこに記載されているか、すぐに飛んで目視で確認できるのです。
私たちは「You are in Control」という言い方をしているのですが、あなた自身がソースを選び、あなた自身がコントロールする。Acrobatでは自分が選んだドキュメント、選んだリンク、選んだテキストからのみAIが回答するので、ソースの範囲をコントロールできる。社内文書を入れている場合はハルシネーション(AIの誤回答)のリスクも抑えられます。
また、法務や調査などの専門職だけでなく、たとえば保険代理店のエージェントや、コールセンターのスタッフのような方にも使えます。IT部門にデータベース構築を依頼しなくても、社内にある大量のドキュメントをPDFスペースに入れるだけで、それがそのままナレッジベースになります。PDFスペースには100ファイルまで入れられて、PDFだけでなくWordやPowerPointにも対応していますし、1つのファイルが600ページまで処理できるので、相当なボリュームの文書を横断的に解析できます。もちろん、取り込んだドキュメントがAIの学習データに使われることは一切ありません。
