Last modified: "2014/02/18 14:30:22 (JST)"

森研究室 紹介
総合研究棟 S609室, S203室


研究分野

自然言語処理,ディジタルドキュメント,言語コミュニケーション

発表文献

研究室の方針

私たちの周りにはディジタルドキュメント(電子化文書)が溢れています. Webなどネットワーク利用技術の発達に伴い, オンラインニュースや電子図書館など膨大な量の文書が利用可能になりました. また,安価な大規模ストレージの登場などコンピュータの普及により, 各組織内においても各種資料を電子化してそのまま保存することが多くなりました.

しかし,この状況は逆に情報の洪水を生じさせています.つまり,私達が今,必要な情報が他の情報に埋もれてしまい,うまく利用できないということです.

本研究室では,この状況を改善する技術として「情報抽出」,「情報検索」を中 心とするディジタルドキュメントの研究しています. この分野の研究成果として現在世の中で役に立っているものの一つがサーチエンジンです. インターネットを利用されている方は既にご存知だと思いますが,キーワードを幾つか入力すると関連するホームページを得ることができるものです. 私達は,Google や Yahooといった,今あるサーチエンジンよりも遥かに賢い文書インタフェースを目指し,研究を行なっています.

研究室のメンバが考案した新しいアイデアは実証システムに実装され, コンテスト型の発表会などを通じて世界各国の研究機関と同じ土俵で競いあっています.

研究テーマ

以下におもなテーマを示します.各テーマはいくつかの要素技術の研究から成り立っていますので,研究室ではそれら要素技術を個別の研究テーマとして扱っております.

「質問応答」

WWWなど大量の電子化文書を辞典のように使って利用者の質問にズバリ答えるシステムです. サーチエンジンのように文書を教えてくれるのではなく,答え自身を簡潔に答えるのがポイント. 情報検索と情報抽出を組み合わせた,より高度な技術を要します. 最近では,新聞記事の他にもWeb文書を対象にしたWeb質問応答や, 様々な国の言葉で書かれた文書から答を見つけることができる多言語質問応答にも取り組んでいます.

「文書提示」

情報検索結果など,複数の文書を利用者にわかりやすく提示します. 複数文書の要約使い易いグラフィカルインターフェースなどがその技術の鍵となります. 特に,製品の売上高などに代表される動向情報要約と可視化や,利用者の知りたい事柄をきちんと説明することができる,質問の答えに焦点を当てた複数文書要約を扱っています.

「情報抽出」

文書に書かれている事柄から利用者の望むものを自動的に抜き出す技術です. 例えば,新製品発表に関する記事から製品に関する情報だけを整理して取り出します. 当研究室では,その要素技術として, 評判情報の抽出(製品などの評判だけを集めてきてまとめる), 同義表現の抽出(同じ物を指す別の表現を見つける)や 固有表現抽出(文書中の組織名や地名,時間などの表現を特定する)などを研究し, 新しい方式の情報抽出技術を模索しております.

「情報検索」

多数の文書群から利用者の要求を満足する文書を取り出します. Webにおける検索エンジンの基礎技術でもあります. その精度向上を目指します. 特に,質問応答のための基幹技術として位置付け,Web質問応答用の高精度情報検索や多言語質問応答用の多言語情報検索を扱います.

配属希望学生向けの補足説明

研究室配属では,プログラミングに抵抗が無く(必ず何らかの実証システムを作成するため),論理的思考ができる方を歓迎します(自分の考えを具体的にまとめるため).研究室の見学は随時歓迎致しますのでお気軽にどうぞ.なお事前に森(mori at forest . eis . ynu . ac . jp)まで連絡を頂ければ確実です.

なお,研究室のある「総合研究棟」は本学西門のすぐそばです.