Last modified: "2009/10/05 22:58:18 (JST)"

発表概要

シンポジウムのページに戻る

データベースとウェブの連携による情報の獲得と利用に関する研究

 情報獲得技術の進歩により、ウェブ文書を利用した大規模ファクトデータベースの構築が現実のものとなりつつある。一方で、多様な情報源から抽出されたファクトを同定・選別することは容易ではなく、人手で構築された信頼性の高いデータベースと相補的に用いる効果が期待される。そこで本研究では、データベースとウェブの連携による情報獲得のフレームワークの提案と実証を目指す。発表では、研究者情報の統合を実践例とした検討結果を紹介し、固有名とIDの対応問題について考察する。

(発表者: 相澤彰子)

検索エンジンの信頼性解析

 本研究では,Web活用に必要不可欠な存在となった検索エンジンについて,その信頼性を示す指標を考案し,実際の商用検索エンジンにおける信頼性を明らかにすることで,安心してインターネットを利用できる環境を提供することを目指しています.従来,検索エンジンの信頼性について,様々な角度からの研究が行われていますが,何れもベンチマークを持たない相対的な評価に留まっています.本研究では日本語で記述されたWebページの変動をベンチマークとして,商用検索エンジンの信頼性を数値化することを目指しています.

(発表者: 山名早人)

異なる特徴を持つニュースサイトを比較対照する世界ニュース分析システムの研究

 近年、インターネットにより、様々な国のニュースサイト(新聞やCNNなどのニュースチャンネルのサイト)の情報が利用可能になっている。また、Googleニュースのようなニュースアグリゲーションサイトを用いると、最新のニュースをトピック毎に分類して読むことができる。しかし、これらの既存システムは、多くのニュース記事を集めて分類するだけである。一方、ニュースの価値は、ニュースの情報源と関連する。例えば、外国の新聞における日本の記事は、外国の日本に関する興味を現すと考えられる。そのため、日本と異なる記事の取り扱いがされているという情報や、通常と異なる報道がされているという情報は、外国からみた日本を理解するために有用な情報となる。本研究では、国ごとの興味の違いといったニュースサイト毎の特徴を考慮した分析や、意見分析、時系列ごとの分析などの多観点から分析を可能とする世界ニュース分析システムの構築をその目標とする。

(発表者: 吉岡真治)

相互信頼感形成のための会話場構造抽出の研究

 対話処理では話し手と聞き手との二人の参加者を前提とした対話モデルの構築が行われてきた.われわれの研究課題では,そのような対話から多人数会話に問題設定を拡張した時に必要となる理論モデル上の整備と,実際の多人数会話のコーパスデータ分析に基づく会話構造抽出の研究を進めてきた.これまで合意形成を目標としたデザイン会話を対象として研究を行い,特に,話し手の行動だけでなく会話における聞き手の反応が会話構造同定に重要な役割を果たすことを指摘してきた.本発表ではさらに,言語コミュニケーションの本源的な目的である会話参加者間での相互信頼感の形成が会話を通じてどのようになされるか,その過程の実証的研究とモデル化の可能性について述べる.

(発表者: 片桐恭弘)

視線情報を利用した参照表現の理解・生成モデル

 我々の研究課題では,対象の空間的配置,言語表現に加え,話者の視線情報を併用する新しい参照表現の理解・生成のモデルを構築することを目的としている.基礎データとして,2名が協力してタングラム・パズルを解く際におこなわれる対話と同期して,各パズル・ピースの位置,ピースに対する操作,参加者の視線を収集する.このデータをもとに参照表現をアノテーションしたコーパスを作成する.本発表では,データ収集実験,および予備的に作成したコーパスに関して述べるとともに,コーパスを利用した研究の一例を紹介する.

(発表者: 徳永健伸)

言語処理を用いた語学教育支援 ---二つの観点からの取り組み---

これまで、言語処理を用いて語学教育支援を行う取り組みを、

の二つの観点から行ってきた。本講演ではそれぞれの取り組みの概要を説明した後、その成果物として二つの言語処理システムを紹介する。

第一に、非漢字圏学習者のための漢字検索システム「漢輔」を紹介する。既存の漢字検索法は漢字文化に根ざしており、漢字初心者が漢字を検索する際には困難を伴うことが多い。「漢輔」は、既存の方法とは異なる漢字の検索方法に基づく漢字検索インターフェースである。漢輔では、現在日本語、中国語それぞれ5000字強の漢字を検索することができる。

第二に、難易度上類似する文書を検索するシステムTerraceを紹介する。このシステムは、語学教員あるいは語学学習者が文書を入力すると、それに類似する難易度を持つ文書を教材として提案するシステムである。文書の難易度判定はReadability研究の中で1930年代から研究が行われており、昨今では機械学習を用いた取り組みが行われている。Terraceはその中でも独自の文書難易度判定方式に基づく。

それぞれのシステムの紹介の後、従来方式との違いや評価などに言及する。

(発表者: 田中久美子)

単語・フレーズ・言語モデルを統合したフレーズ並び替えモデルに基づく統計的機械翻訳

 統計的機械翻訳技術は, フレーズ翻訳モデルの導入によって局所的な単語並びについての翻訳性能が近年大幅に向上した。しかし, 日英翻訳などの比較的遠い言語間の翻訳では, フレーズの並び替えを行い文を構成する部分に困難があり, ルールベースの機械翻訳システムの性能にはいまだ追いついていないのが現状である。本科研ではこの並び替えの確率モデルについて, 様々な視点から検証しつつ,比較的遠い言語間の翻訳でも有効に働くようなモデルを考案することを目的としている。本シンポジウムでは今年度行った基本的な並び替えモデルの有効性や相互作用に関する実験により明らかになった知見を報告する。

(発表者: 山本幹雄)

シンポジウムのページに戻る