文書からの情報抽出と固有表現抽出

--- 文書から特定情報を切り出す ---

森 辰則

横浜国立大学 工学部 電子情報工学科

(画像ラボ 1999年12月号掲載)


目次

■ はじめに

■ 情報抽出

■ 情報抽出システムの概要

■ 主要文書処理技術

■ 固有表現抽出

■ 固有表現抽出の各手法

■ 固有表現抽出の精度

■ おわりに


■ はじめに

現代は情報過負荷(Information Overload)の時代である.情報化社会と 呼ばれて久しいが,我々がそこから入手 可能な情報の量は爆発的に増大している. これは,紙などの物理的媒体から情報が 独立し,電子的な手段で蓄積,伝達する ことが容易になったことが主な要因であ る.更に,World Wide Web(WWW)などインター ネット技術の発展によりその範囲は全世 界に広がり,人間が直接扱える限界を遥 かに越えている.

情報の形態は,画像,音声など様々で あるが,新聞その他のメディアにおける 伝達様式を見るまでもなく,現時点では 伝達の主情報として用いられているのは 言葉による情報,特に,文書情報である. 文書情報は大変柔軟な反面,そこから情 報を得るには最終的には人間が関与,つ まり読まなければならない.しかし,量 が膨大な場合はすべてを人が読むことは 事実上不可能である.

そこで,大量の文書情報に何らかの構 造を導入し,組織化する技術が様々な形 で研究・開発されている.その技術を用 いることにより,人間が直接文書から情 報を取得する以前に,十分に文書を絞り 込むことが可能になると期待されている. 例えば,WWWにおける検索エンジンなど はその好例である.

本稿では,文書の組織化手法として, 近年注目を集めている情報抽出 (Information Extraction)について説明 する.特に,その中で基礎的技術となる 固有表現抽出(Named Entity Extraction)について述べる.固有表現 とは,組織名(会社名,団体名など),人 名,地名,製品名などであり,これらを 認識することが情報抽出の基本となる. 後に述べるように,英語においては,機 械による固有表現抽出の精度は人のそれ を上回っている.日本語においては,そ れよりも若干劣るものの,高精度の抽出 ができる.

■ 情報抽出

情報抽出(Information Extraction)と は,簡単に言うと,個々の文書から中心 的な情報だけを抽出する技術である.例 として図1に示す新製品発表の新聞記事 を見てみよう.


OA機器大手のカノン株式会社(本社・東京)は27日,デジタルカメラ 「パワーショット30」(3万9800円)と,「同30T」(4万6800円)の2機 種を発売した.同社は昨年10月にも...
図1 例文:新製品発表記事

新製品発表であれば,その内容は概ね 「製品の情報」,「メーカーの情報」, 「発表に関する情報」に集約され,新聞 記事が異なっても変わることはないと考 えられる.情報抽出における処理とは, このように,文書から予め定められた項 目を抽出することである.図2に図1の記 事からの情報抽出例を示す.


<製品発売事象 id=1> :=
    製品:   <製品 id=2>
    企業: <企業 id=3>
    発売日: 27日

<製品発売事象 id=2> :=
    製品:   <製品 id=5>
    企業: <企業 id=3>
    発売日: 27日

<製品 id=3> :=
    種別: ディジタルカメラ
    名称: パワーショット30
    価格: 39800円

<製品 id=4> :=
    種別: ディジタルカメラ
    品名: パワーショット30T
    価格: 46800円

<企業 id=5> :=
    種別:   OA機器大手
    名称:   カノン株式会社
    所在地: 東京
図2 抽出結果

このような定型形式に文書を整理する ことができれば,後に再利用する際にも 容易である.新着記事を次々と情報抽出 システムに入力し,その結果を関係デー タベース等に保存すれば,項目による検 索や整列,さらには,他のデータベース との連携などが可能となる.情報検索や 文書クラスタリング,要約など他の文書 組織化手法では,このようにはいかない. なぜならば,それらは,文書から最終的 に情報を得るにあたって,人間に依存し なければならないからである.

抽出項目が定型形式であるということ は,システム作成においても重要な性質 をもたらす.それは,現在の自然言語処 理技術によれば,一般の文書理解の場合 よりも,比較的容易にシステムを構成で きることである.

情報抽出は国内外の様々な企業,研究 機関で盛んに研究が行なわれている.特 に,米国におけるMUC(Message Understanding Conference) 1) が牽引 力となった.MUCは米軍がスポンサーと なり,共通の課題に対してシステム評価 を行なう場であり,システム間の評価や 問題点の議論を通じて技術向上が行なわ れた.我が国においても,今年9月,初 めての情報抽出に関するコンテスト形式 の会議(IREX)が盛大に開かれ,多数の団 体の参加により成功を収めている(IREX では情報検索タスクもあった) 2)3).

■ 情報抽出システムの概要

情報抽出システムの動作は,概ね,次 のようになる.

i) フィルタリング

文書の中から無関係な情報を無視しつ つ,関連のある断片を切り出す.

ii) 要素抽出

文書断片から関連する項目要素を抽出 する.

iii)情報結合

項目要素を集め,予め定められた定型 項目に結びつける.この定型項目はテン プレートと呼ばれる.

情報抽出システムは上記一連の流れを 持つが,モジュラリティやポータビリティ を向上するために,要素技術の組合せと して実現されることが多い.MUCにおい てはこの要素技術毎の評価が行なわれて いる.以下に,その要素技術を示す.概 ね,それ以前に現れる要素技術のモジュー ルの出力を用いてあるモジュールが動作 する.例えば,d)の処理はa),b),c)の出 力に基づいて行なわれる.

a) 固有表現抽出 (Named Entitiy Task,NE)

組織名,人名,場所,時間表現,金額 表現,割合表現を個別に抽出し,元の文 書にその情報を埋め込み,後の処理に利 用できるようにする.例えば,図1の例 文においては,図3のように各表現に応 じたタグ(Tag)が挿入される.

b) 共参照関係抽出 (Coreference Task,CO)

名詞句が指し示す対象物は,表現が異 なっても同一であることがある.この関 係を抽出する.例えば,図1の例文にお いては,「同」を含む表現が2回現れて いるが,それぞれ,「パワーショット」, 「カノン」に対応することが抽出されな ければならない.

c) 個別要素抽出 (Template Element Task, TE)

企業や組織など個別の要素について, いくつかの決められた情報を集める.図 2における,<製品...> や <企業...> に示される情報がそれである.単にテン プレート抽出とも呼ばれる.

d) シナリオ抽出 (Scenario Template Task, ST)

個別要素を結びつけ,ある定められた 出来事(シナリオ)に構成する.図2にお ける,<製品発売事象...>に示される相 当がその例である.


OA機器大手の<ORG>カノン株式会社</ORG>(本社・<LOC>東京</LOC>)は <DATE>27日</DATE>,PCカード型デジタルカメラ 「<ART>パワーショット 30</ART>」(<MONEY>3万9800円</MONEY>)と、 「<ART>同30T</ART>」 (<MONEY>4万6800円</MONEY>)...
図3 固有表現抽出の例

■ 主要文書処理技術

前節で述べた各モジュールは処理の依 存関係により積み上げられるが, 各モジュール自身は以下に挙げる文書処 理技術の一部あるいはすべてを用いてそ の処理を行なう.

a) 形態素解析

文を個々の語の並びに分解し,それぞれ に品詞などの情報を割り当てる.人名, 組織名など予め辞書的情報として用意で きるものは,ここでその情報も語に割り 当てる.

b) 意味情報付与

問題領域における主要な名詞句を識別し, 意味情報を割り当てる.

c) 構文解析

句の間の関係を解析する.ただし,必要 な部分だけを解析するだけにとどめるこ とが多い.

d) 談話解析

構文解析により得られた情報を統合する. また,参照表現を解析し同一指示物を判 定する.

a)の形態素解析は,日本語においては 非常に重要である.英語などと異なり, 日本語では分かち書きがされていないか らである.幸い,JUMANやChasenといっ た高性能のシステムが無償で提供されて いるので,これらが用いられることが多 い.

b)〜d)においては,様々な方式が提案 されているが,構文解析や意味解析にお いて深い処理を行なうことはシステムの 性能向上においてはさほど有効でないこ とが認識されている.代わりに何が用い られているかというと,パタンマッチン グ(Pattern Matching)による方法である. パタンマッチングの概念は非常に単純で, 処理としても軽く,性能的に優れている ためにMUCなどにおいて主流となった.

パタンマッチングに基づくシステムは 多数のパタン(Pattern)書き換え規則と, パタンを文書に照合するパタンマッチャ (Pattern Matcher)から構成される.図4 にパタン書き換え規則の例を示す.なお, この例は説明のために,実際に用いられ るパタンよりも簡略化していることに注 意されたい.


[ア-ン]+ "株式会社"                    → /企業名/
/企業名/ "(本社・" (/名詞/+) ")"       → /企業名/ "(本社・" /地名/ ")"
/企業名/ "(本社・" /地名/ ")"          → /企業/
[1-3]*[0-9] "日"                       → /日付/
[0-9]+ "万" [0-9]+ "円"                → /金額/
「/名詞/+」 "(" /金額/ ")"             → 「/製品名/」 "(" /金額/ ")" 
「/製品名/」 "(" /金額/ ")"            → /製品/
/製品/ "と" /製品/ "の" [0-9]+ "機種"  → /製品/
/企業/ "は" /日付/ /製品/ "を発売した" → /製品発売事象/
図4 簡単なパタンの例

このパタン書き換え規則は`→'を中心に して,左辺と右辺に別れている.左辺に は注目すべきパタンが記されている.一 方,右辺には左辺に一致した文字列をど のように書き換えればよいかが示されて いる."..."はそのまま表現として現れ る部分を示し,/.../の部分は特定のカ テゴリであることを表す.例えば,一番 めの規則は「カタカナ列の後に"株式会 社"という文字列があった場合,それを/ 企業名/というカテゴリに置き換える」 ということを表す.また,最後の規則は, 「/企業/"は"..."発売した"というパタ ンを/製品発売事象/というカテゴリに置 き換える」ということを表す.

実際のシステムにおいては,パタン自 身を記述する問題(ゴミを拾うことなく なるべく一般的なパタン書き換え規則を 如何に記述するか)や,複数のパタンの 適用に関する制御の問題(どのパタン書 き換え規則を優先して適用するか)など がある.

■ 固有表現抽出

先に述べたIREXにおいては,情報抽出 の課題として,新聞記事を対象とした固 有表現抽出が採用された.本節では,そ の固有表現抽出に焦点を当てて説明をす る.既に述べたように,固有表現抽出と は組織名,人名,場所,時間表現,金額 表現,割合表現などを文書の中から発見 し,図3のように目印(タグ)をふること である.

そこで用いられている方法は,概ね, 以下の通りである.

step-1)

原文を形態素解析器により単語の列に分 解する.この時,各単語には品詞(名詞, 動詞など)の他,辞書に記述されている カテゴリ情報(人名(の一部),企業名な ど)も割り当てられることが多い.

step-2)

step-1で得られた単語列中の各単語に対 して,ラベルを付与する.このラベルは その単語が固有表現のどの部分に対応す るかを示すものである.ラベルはその単 語自身ならびに前後の単語列から推定す る.

step-3)

step-2で得られたラベル列より,整合性 のある固有表現を取り出す.

step-2 と step-3 が別れているのは, 一つの固有表現が複数の単語から構成さ れている場合に対処するためである.例 えば図5に示す文を見てみよう.「カノ ン株式会社」は3つの単語「カノン」, 「株式」,「会社」から構成されること が形態素解析から得られるが,それぞれ に,「組織名:始」,「組織名:中」, 「組織名:終」というラベルをふること ができれば,この3つの単語が一連の組 織名を表すことが得られる.

なお,後に述べるパタンマッチによる 場合など,処理方法によっては,この二 つのステップが融合してしまっている場 合もある.


---------------------------------------------
単語           品詞他          固有表現ラベル
---------------------------------------------
OA             その他          
機器           普通名詞        
大手           普通名詞      
の             接続助詞      
カノン         カタカナ        組織名:始
株式           普通名詞        組織名:中
会社           普通名詞        組織名:終
は             副助詞        
27           数詞            日付:始
日             名詞性名詞助数  日付:終
、             読点          
デジタルカメラ カタカナ      
を             格助詞        
発売           サ変名詞      
した           サ変動詞
---------------------------------------------
図5 単語列に対する固有表現ラベルの付与

■ 固有表現抽出の各手法

前節では固有表現抽出手法の概要を述 べた,ここでは,個別の手法について述 べる.IREXに参加したシステムを分類す ると以下のようになる 5).

a) パタン駆動型

b) 自動学習型

c) 両者のハイブリッド型

パタン駆動型は情報抽出の主要技術で あるパタン書換え規則を固有表現抽出に 用いるものである.パタン書換え規則の 作成は人手によるもので,数百の規則が 用いられるのが普通である.開発には数 十〜百数十 人・日の労力が投入されて いる.

一方,学習型はラベル付与を行なう書 換え規則を例文から機械学習により自動 的に獲得するものである.具体的には, 人手で正解を与えた例文集から,

i) ある語を中心とする前後2語程度の 文脈を考え,そこに登場する語と それに付随する情報を属性情報の ベクトルにしたもの.
ii)その語のラベル

の対を多数抽出し,機械学習アルゴリズ ムにより,i) から ii) を推定する分類 器を予め得る.新しい文からの固有表現 抽出は,その文から i) を作成し,分類 器によって ii) のラベルを各語に割り 当てることによる.学習方法としては, 最大エントロピー法やC4.5などが用いら れる.

最後のハイブリッド型は人手で作成し たパタン書換え規則と機械学習により得 られたものを併用するものである.

■ 固有表現抽出の精度

固有表現抽出の精度は,再現率 (recall),適合率(precision)を組み合 わせた値である,F値(F measure)で計ら れることが多い.再現率は如何に多くの 正解を見つけられたかを表す指標であり, 一方,適合率は誤りの少なさを表す指標 である.両者はトレードオフの関係にあ るので,システム評価には両者を組み合 わせたF値が用いられる.

            抽出された正しい固有表現数
再現率(R) = --------------------------
                 正解の固有表現数
            抽出された正しい固有表現数
適合率(P) = --------------------------
               抽出された固有表現数
     (b+1)・R・P
F = --------------- ・ 100
      b・P + R 
                           (bは通常1)

IREXに参加したシステムのうち,F値 が最も良かったのはパタン駆動型のもの で,F値は84であった.学習型のもので 一番良いものは77,ハイブリッド型のも のは80であった.ちなみに人間が固有表 現抽出を行なった場合には,大学院生で 95程度,規則を熟知した者が行なった場 合には97〜99程度である.

■ おわりに

本稿では,情報抽出,特に固有表現抽 出についての解説を行なった.日本語に おける固有表現抽出の精度はまだ人間の それと開きがあるので,今後の研究成果 に期待したい.

■参考文献

1) MUC Homepage, http://www.muc.saic.com/

2) IREX Homepage, http://cs.nyu.edu/cs/projects/proteus/irex/

3) IREXワークショップ予稿集,IREX実行 委員会 (1999)

4) 関根聡: テキストからの情報抽出, 情報処理, Vol.40, No.4, pp.370-373, 情報処理学会 (1999)

5) 宮本,松尾,森: IREX NEタスク結果 分析, IREXワークショップ予稿集, pp. 107-114, IREX実行委員会 (1999)