Last modified: "2003/09/06 23:50:34 (JST)"
Top       

森 辰則
研究内容

概要

私たちの周りにはディジタルドキュメント(電子化文書)が溢れています! Webなどネットワーク利用技術の発達に伴い,オンラインニュースや電子図書館など膨大な量の文書が利用可能になりました.また,安価な大規模ストレージの登場などコンピュータの普及により,各組織内においても各種資料を電子化してそのまま保存することが多くなりました.

しかし,この状況は逆に情報の洪水を生じさせています.つまり,私達が今,必要な情報が他の情報に埋もれてしまい,うまく利用できないということです.

本研究室では,この状況を改善する技術として,「文書情報処理」,「情報抽出」,「情報検索」を中心とするディジタルドキュメントの研究しています.すなわち,文書をどのように電子化・蓄積し,それをどのように活用するかという点に注目します.言葉を扱う自然言語処理技術や統計処理などを基本技術としています.

「情報抽出」

文書に書かれている事柄から利用者の望むものを自動的に抜き出す技術です.例えば,新製品発表に関する記事から製品に関する情報だけを整理して取り出します.当研究室では,Named Entityタスク(文書中の組織名や地名,時間などの表現を特定する問題)を中心に,新しい方式の情報抽出技術を模索しております.

「情報検索」

多数の文書群から利用者の要求を満足する文書を取り出します.Webにおける検索エンジンの基礎技術でもあります.その精度向上を目指します.特に,近年,様々な言語で記述された文書が入手可能となり,言語を意識せずに検索要求ができることが望まれています.そこで,特に,言語横断型情報検索を扱います.

「質問応答」

利用者の質問にズバリ答えるシステムを目指します.このシステムは情報検索と情報抽出を組み合わせた,より高度な技術を要します.

「情報検索結果の知的提示」

情報検索結果など,複数の文書を利用者にわかりやすく提示します.特に検索要求に則した検索結果文書の要約の研究を行なっています.

「専門用語の抽出」

専門的な文書から,その分野の専門用語を自動的に抽出します.