Last modified: "2006/03/25 22:37:28 (JST)"
Mori       

文部科学省 科学研究費補助金
特定領域研究「ITの深化の基盤を拓く情報学研究」
情報検索結果の知的提示のための自動要約ならびにインタフェースに関する研究


研究課題

文部科学省 科学研究費補助金 特定領域研究
006「ITの深化の基盤を拓く情報学研究」
A02「コンテンツの生産・活用に関する研究」

情報検索結果の知的提示のための
自動要約ならびにインタフェースに関する研究

Study on automated text summarization
and its user interface for smart display of documents retrieved by IR systems

研究期間

平成13年度,平成14年度,平成15年度,平成16年度〜平成17年度

研究組織

研究代表者森 辰則 (Tatsunori Mori)
mori@forest.eis.ynu.ac.jp
http://www.forest.eis.ynu.ac.jp/~mori/
研究分担者田村直良 (Naoyoshi Tamura)

横浜国立大学 大学院 環境情報研究院 社会環境と情報部門
Division of Social Environment and Information,
Graduate School of Environment and Information Sciences, Yokohama National University

報告書等

研究の背景と目的

本研究の目的は,情報検索の結果として得られた文書群から利用者が真に必要 とする情報を効率良く選択する手助けとなる情報提示技法を確立することである.

近年,WWW検索エンジンのように,情報検索システムが幅広く利用されるようになってきた.利用者はキーワードを入力することにより,関連文書を簡単に得られる.大量文書集合において候補をある程度絞り込めるので,効果的な手段であるが,次の点において,まだ改善の余地がある.

(1)「不要な文書を完全に排除できない.」: 検索エンジンの精度の問題や,利用者が自分の欲する文書を適切なキーワー ドで表現できない等の理由により,100\%の再現率・適合率はあり得ない.

(2)「検索結果文書の構造化がなされていない.」: 検索質問との関連度で順位付けがされるが,効率の良いナビゲーションのための構造化はなされない.

(1)については,最終的には利用者が何らかの形で原文書を読むしかないが,原文 書の全てを読むことは時間的制約で難しいため,要約により短い文書にして提示 する必要がある.この時,闇雲に要約するのではなく,検索要求との関連性判定 が的確に行なえる要約を生成しなければならない.例えば,現在の各種検索エン ジンで採用されている,検索要求中の語の周囲のみを提示するといった単純な方 法では,この目的に対して品質が十分ではない.そこで,関連性判定を目的とし た自動要約が必要となる.一方,自動要約の基本は,重要度に基づいて文書断片 を取捨選択することであり,その基幹技術は,語に対する重要度の付与である. よって,検索要求との関連性判定という観点で語に重みを与えることが肝要であ る.

(2)については,順位という一次元的な情報提示ではなく,より高次元の構造に 文書集合を分類・整理し,利用者による情報の取捨選択が適切に遂行できる仕組 みが必要である.例えば,既存のクラスタリング手法等により文書群を木構造と して分類・整理することが比較的容易に行える.しかし,そこで本質的な問題と なるのは,整理された構造を如何にして利用者に説明し,提示するかである.い くら,文書集合が構造化されても,適切な説明記述が明示されなければ,利用者 にその意図は伝わらない.説明記述には,その文書集合を代表する適切な重要語 を数個列挙する方法や,代表文書の要約を提示する方法が考えられが,いずれも, 語に対する重要度を適切に与えることが肝要である.

上記問題(1),(2)に対する解決策の根幹をなすものが「複数文書間の関係を考慮 した重要語抽出」であるという観点から,本研究では,複数文書の類似構造を文 書中の語の重要度に写像するという新しい手法を確立することを目的とする.そ して,この手法を基幹技術として,検索文書の要約,及び,情報ナビゲーション のための情報提示に関する技術を開発する.

関連研究に対する本研究の位置付け

検索結果文書の要約には,従来手法としてTombrosらに代表されるものがある. これは,検索要求中の語を重要語として考え,他の語よりも重みを高する方法で ある(検索要求によるバイアス手法).しかし,この方法は,各種フィードバック や検索要求の拡張など検索エンジンにおける工夫の結果が反映されないという問 題があった.また,検索エンジンの精度が悪い場合には,元々,関連文書が含 まれないわけであるから,この考え方自身が破綻する.

そこで我々は,発想を全く変えてしまい,検索要求文を使わずに,検索文書集 合のみを用いて語の重みづけることを考える.これは,検索エンジンの精度が非 常に悪くなければ,検索文書集合には暗に検索要求の情報を含んでいることを利 用するものである.この考え方により,検索エンジンでの各種工夫が十二分に発 揮され,なおかつ,適切な語の重みを与え,的確な要約を生成することが可能と なる.また,検索エンジンの精度が非常に悪かった場合でも,検索された文書集 合の中での重要語を適切に取り出すことができるので,文書集合から素早く情報 を取り出すのに適した要約を行なうことができる.具体的には,まず,階層的ク ラスタリングにより,検索文書間の類似性構造を抽出し,次に,その類似性構造 を反映するように語の重みづけを行う.複数文書に対する語の重みづけを,類似 性に基づくクラスタ構造という高次元の構造に基づき行なう本方法は他に類を見 ない考え方である.

また,この手法は文書の分類・整理も同時に行なわれ,なおかつ,整理された 構造における重要語を求めることができる点でも注目に値する.語の重みづけは 各クラスタ毎にその下位構造を反映して行なわれるため,各クラスタに対して適 切な重要語を選択し,説明記述を生成できる.Eguchiらの研究やFukuharaらの手 法,さらに,動的なクラスタリングに基づく利用者インタフェースとして高名な CuttingらのScatter/Gatherにおいても,クラスタ内を平坦な構造として語の重 みづけを行ない説明のためのキーワードを選択している.これらに比べて本手法 は文書の類似性構造を適切に反映している点で優れる.

期待される成果

本研究の成果により,複数文書からなる検索結果を,適切なキーワードの下に 分類・整理をするとともに,必要に応じて原文書の要約を提示することにより, 利用者に効率よく提示する手法が確立される.これは,情報検索システム等の大 規模・多利用者システムのみならず,電子メールの知的整理システム等,個人利 用システムにおいても,インターフェースの質的向上がなされ,利用者の負担が 軽減する.