文書からの情報抽出と固有表現抽出

--- 文書から特定情報を切り出す ---

森辰則

横浜国立大学工学部電子情報工学科

(画像ラボ 1999年12月号掲載)

■ はじめに

現代は情報過負荷(Information Overload)の時代である．情報化社会と呼ばれて久しいが，我々がそこから入手可能な情報の量は爆発的に増大している．これは，紙などの物理的媒体から情報が独立し，電子的な手段で蓄積，伝達することが容易になったことが主な要因である．更に，World Wide Web(WWW)などインターネット技術の発展によりその範囲は全世界に広がり，人間が直接扱える限界を遥かに越えている．

情報の形態は，画像，音声など様々であるが，新聞その他のメディアにおける伝達様式を見るまでもなく，現時点では伝達の主情報として用いられているのは言葉による情報，特に，文書情報である．文書情報は大変柔軟な反面，そこから情報を得るには最終的には人間が関与，つまり読まなければならない．しかし，量が膨大な場合はすべてを人が読むことは事実上不可能である．

そこで，大量の文書情報に何らかの構造を導入し，組織化する技術が様々な形で研究・開発されている．その技術を用いることにより，人間が直接文書から情報を取得する以前に，十分に文書を絞り込むことが可能になると期待されている．例えば，WWWにおける検索エンジンなどはその好例である．

本稿では，文書の組織化手法として，近年注目を集めている情報抽出 (Information Extraction)について説明する．特に，その中で基礎的技術となる固有表現抽出(Named Entity Extraction)について述べる．固有表現とは，組織名(会社名，団体名など)，人名，地名，製品名などであり，これらを認識することが情報抽出の基本となる．後に述べるように，英語においては，機械による固有表現抽出の精度は人のそれを上回っている．日本語においては，それよりも若干劣るものの，高精度の抽出ができる．

■ 情報抽出

情報抽出(Information Extraction)とは，簡単に言うと，個々の文書から中心的な情報だけを抽出する技術である．例として図1に示す新製品発表の新聞記事を見てみよう．

OA機器大手のカノン株式会社(本社・東京)は27日，デジタルカメラ「パワーショット30」(3万9800円)と，「同30T」(4万6800円)の2機種を発売した．同社は昨年10月にも... 図1 例文:新製品発表記事

新製品発表であれば，その内容は概ね「製品の情報」，「メーカーの情報」，「発表に関する情報」に集約され，新聞記事が異なっても変わることはないと考えられる．情報抽出における処理とは，このように，文書から予め定められた項目を抽出することである．図2に図1の記事からの情報抽出例を示す．

<製品発売事象 id=1> :=
    製品:   <製品 id=2>
    企業: <企業 id=3>
    発売日: 27日

<製品発売事象 id=2> :=
    製品:   <製品 id=5>
    企業: <企業 id=3>
    発売日: 27日

<製品 id=3> :=
    種別: ディジタルカメラ
    名称: パワーショット30
    価格: 39800円

<製品 id=4> :=
    種別: ディジタルカメラ
    品名: パワーショット30T
    価格: 46800円

<企業 id=5> :=
    種別:   OA機器大手
    名称:   カノン株式会社
    所在地: 東京

図2 抽出結果

このような定型形式に文書を整理することができれば，後に再利用する際にも容易である．新着記事を次々と情報抽出システムに入力し，その結果を関係データベース等に保存すれば，項目による検索や整列，さらには，他のデータベースとの連携などが可能となる．情報検索や文書クラスタリング，要約など他の文書組織化手法では，このようにはいかない．なぜならば，それらは，文書から最終的に情報を得るにあたって，人間に依存しなければならないからである．

抽出項目が定型形式であるということは，システム作成においても重要な性質をもたらす．それは，現在の自然言語処理技術によれば，一般の文書理解の場合よりも，比較的容易にシステムを構成できることである．

情報抽出は国内外の様々な企業，研究機関で盛んに研究が行なわれている．特に，米国におけるMUC(Message Understanding Conference) 1) が牽引力となった．MUCは米軍がスポンサーとなり，共通の課題に対してシステム評価を行なう場であり，システム間の評価や問題点の議論を通じて技術向上が行なわれた．我が国においても，今年9月，初めての情報抽出に関するコンテスト形式の会議(IREX)が盛大に開かれ，多数の団体の参加により成功を収めている(IREX では情報検索タスクもあった) 2)3)．

■ 情報抽出システムの概要

情報抽出システムの動作は，概ね，次のようになる．

i) フィルタリング

文書の中から無関係な情報を無視しつつ，関連のある断片を切り出す．

ii) 要素抽出

文書断片から関連する項目要素を抽出する．

iii)情報結合

項目要素を集め，予め定められた定型項目に結びつける．この定型項目はテンプレートと呼ばれる．

情報抽出システムは上記一連の流れを持つが，モジュラリティやポータビリティを向上するために，要素技術の組合せとして実現されることが多い．MUCにおいてはこの要素技術毎の評価が行なわれている．以下に，その要素技術を示す．概ね，それ以前に現れる要素技術のモジュールの出力を用いてあるモジュールが動作する．例えば，d)の処理はa),b),c)の出力に基づいて行なわれる．

a) 固有表現抽出 (Named Entitiy Task,NE)

組織名，人名，場所，時間表現，金額表現，割合表現を個別に抽出し，元の文書にその情報を埋め込み，後の処理に利用できるようにする．例えば，図1の例文においては，図3のように各表現に応じたタグ(Tag)が挿入される．

b) 共参照関係抽出 (Coreference Task,CO)

名詞句が指し示す対象物は，表現が異なっても同一であることがある．この関係を抽出する．例えば，図1の例文においては，「同」を含む表現が2回現れているが，それぞれ，「パワーショット」，「カノン」に対応することが抽出されなければならない．

c) 個別要素抽出 (Template Element Task, TE)

企業や組織など個別の要素について，いくつかの決められた情報を集める．図 2における，<製品...> や <企業...> に示される情報がそれである．単にテンプレート抽出とも呼ばれる．

d) シナリオ抽出 (Scenario Template Task, ST)

個別要素を結びつけ，ある定められた出来事(シナリオ)に構成する．図2における，<製品発売事象...>に示される相当がその例である．

OA機器大手の<ORG>カノン株式会社</ORG>(本社・<LOC>東京</LOC>)は <DATE>27日</DATE>，PCカード型デジタルカメラ「<ART>パワーショット 30</ART>」(<MONEY>3万9800円</MONEY>)と、「<ART>同30T</ART>」 (<MONEY>4万6800円</MONEY>)... 図3 固有表現抽出の例

■ 主要文書処理技術

前節で述べた各モジュールは処理の依存関係により積み上げられるが，各モジュール自身は以下に挙げる文書処理技術の一部あるいはすべてを用いてその処理を行なう．

a) 形態素解析

文を個々の語の並びに分解し，それぞれに品詞などの情報を割り当てる．人名，組織名など予め辞書的情報として用意できるものは，ここでその情報も語に割り当てる．

b) 意味情報付与

問題領域における主要な名詞句を識別し，意味情報を割り当てる．

c) 構文解析

句の間の関係を解析する．ただし，必要な部分だけを解析するだけにとどめることが多い．

d) 談話解析

構文解析により得られた情報を統合する．また，参照表現を解析し同一指示物を判定する．

a)の形態素解析は，日本語においては非常に重要である．英語などと異なり，日本語では分かち書きがされていないからである．幸い，JUMANやChasenといった高性能のシステムが無償で提供されているので，これらが用いられることが多い．

b)～d)においては，様々な方式が提案されているが，構文解析や意味解析において深い処理を行なうことはシステムの性能向上においてはさほど有効でないことが認識されている．代わりに何が用いられているかというと，パタンマッチング(Pattern Matching)による方法である．パタンマッチングの概念は非常に単純で，処理としても軽く，性能的に優れているためにMUCなどにおいて主流となった．

パタンマッチングに基づくシステムは多数のパタン(Pattern)書き換え規則と，パタンを文書に照合するパタンマッチャ (Pattern Matcher)から構成される．図4 にパタン書き換え規則の例を示す．なお，この例は説明のために，実際に用いられるパタンよりも簡略化していることに注意されたい．

[ア-ン]+ "株式会社"                    → /企業名/
/企業名/ "(本社・" (/名詞/+) ")"       → /企業名/ "(本社・" /地名/ ")"
/企業名/ "(本社・" /地名/ ")"          → /企業/
[1-3]*[0-9] "日"                       → /日付/
[0-9]+ "万" [0-9]+ "円"                → /金額/
「/名詞/+」 "(" /金額/ ")"             → 「/製品名/」 "(" /金額/ ")" 
「/製品名/」 "(" /金額/ ")"            → /製品/
/製品/ "と" /製品/ "の" [0-9]+ "機種"  → /製品/
/企業/ "は" /日付/ /製品/ "を発売した" → /製品発売事象/

図4 簡単なパタンの例

このパタン書き換え規則は`→'を中心にして，左辺と右辺に別れている．左辺には注目すべきパタンが記されている．一方，右辺には左辺に一致した文字列をどのように書き換えればよいかが示されている．"..."はそのまま表現として現れる部分を示し，/.../の部分は特定のカテゴリであることを表す．例えば，一番めの規則は「カタカナ列の後に"株式会社"という文字列があった場合，それを/ 企業名/というカテゴリに置き換える」ということを表す．また，最後の規則は，「/企業/"は"..."発売した"というパタンを/製品発売事象/というカテゴリに置き換える」ということを表す．

実際のシステムにおいては，パタン自身を記述する問題(ゴミを拾うことなくなるべく一般的なパタン書き換え規則を如何に記述するか)や，複数のパタンの適用に関する制御の問題(どのパタン書き換え規則を優先して適用するか)などがある．

■ 固有表現抽出

先に述べたIREXにおいては，情報抽出の課題として，新聞記事を対象とした固有表現抽出が採用された．本節では，その固有表現抽出に焦点を当てて説明をする．既に述べたように，固有表現抽出とは組織名，人名，場所，時間表現，金額表現，割合表現などを文書の中から発見し，図3のように目印(タグ)をふることである．

そこで用いられている方法は，概ね，以下の通りである．

step-1)

原文を形態素解析器により単語の列に分解する．この時，各単語には品詞(名詞，動詞など)の他，辞書に記述されているカテゴリ情報(人名(の一部)，企業名など)も割り当てられることが多い．

step-2)

step-1で得られた単語列中の各単語に対して，ラベルを付与する．このラベルはその単語が固有表現のどの部分に対応するかを示すものである．ラベルはその単語自身ならびに前後の単語列から推定する．

step-3)

step-2で得られたラベル列より，整合性のある固有表現を取り出す．

step-2 と step-3 が別れているのは，一つの固有表現が複数の単語から構成されている場合に対処するためである．例えば図5に示す文を見てみよう．「カノン株式会社」は3つの単語「カノン」，「株式」，「会社」から構成されることが形態素解析から得られるが，それぞれに，「組織名:始」，「組織名:中」，「組織名:終」というラベルをふることができれば，この3つの単語が一連の組織名を表すことが得られる．

なお，後に述べるパタンマッチによる場合など，処理方法によっては，この二つのステップが融合してしまっている場合もある．

---------------------------------------------
単語           品詞他          固有表現ラベル
---------------------------------------------
OA             その他          
機器           普通名詞        
大手           普通名詞      
の             接続助詞      
カノン         カタカナ        組織名:始
株式           普通名詞        組織名:中
会社           普通名詞        組織名:終
は             副助詞        
２７           数詞            日付:始
日             名詞性名詞助数  日付:終
、             読点          
デジタルカメラ カタカナ      
を             格助詞        
発売           サ変名詞      
した           サ変動詞
---------------------------------------------

図5 単語列に対する固有表現ラベルの付与

■ 固有表現抽出の各手法

前節では固有表現抽出手法の概要を述べた，ここでは，個別の手法について述べる．IREXに参加したシステムを分類すると以下のようになる 5)．

a) パタン駆動型

b) 自動学習型

c) 両者のハイブリッド型

パタン駆動型は情報抽出の主要技術であるパタン書換え規則を固有表現抽出に用いるものである．パタン書換え規則の作成は人手によるもので，数百の規則が用いられるのが普通である．開発には数十～百数十人・日の労力が投入されている．

一方，学習型はラベル付与を行なう書換え規則を例文から機械学習により自動的に獲得するものである．具体的には，人手で正解を与えた例文集から，

i) ある語を中心とする前後2語程度の文脈を考え，そこに登場する語とそれに付随する情報を属性情報のベクトルにしたもの．

ii)その語のラベル

の対を多数抽出し，機械学習アルゴリズムにより，i) から ii) を推定する分類器を予め得る．新しい文からの固有表現抽出は，その文から i) を作成し，分類器によって ii) のラベルを各語に割り当てることによる．学習方法としては，最大エントロピー法やC4.5などが用いられる．

最後のハイブリッド型は人手で作成したパタン書換え規則と機械学習により得られたものを併用するものである．

■ 固有表現抽出の精度

固有表現抽出の精度は，再現率 (recall)，適合率(precision)を組み合わせた値である，F値(F measure)で計られることが多い．再現率は如何に多くの正解を見つけられたかを表す指標であり，一方，適合率は誤りの少なさを表す指標である．両者はトレードオフの関係にあるので，システム評価には両者を組み合わせたF値が用いられる．

            抽出された正しい固有表現数
再現率(R) = --------------------------
                 正解の固有表現数
            抽出された正しい固有表現数
適合率(P) = --------------------------
               抽出された固有表現数
     (b+1)・R・P
F = --------------- ・ 100
      b・P + R 
                           (bは通常1)

IREXに参加したシステムのうち，F値が最も良かったのはパタン駆動型のもので，F値は84であった．学習型のもので一番良いものは77，ハイブリッド型のものは80であった．ちなみに人間が固有表現抽出を行なった場合には，大学院生で 95程度，規則を熟知した者が行なった場合には97～99程度である．

■ おわりに

本稿では，情報抽出，特に固有表現抽出についての解説を行なった．日本語における固有表現抽出の精度はまだ人間のそれと開きがあるので，今後の研究成果に期待したい．

■参考文献

1) MUC Homepage, http://www.muc.saic.com/

2) IREX Homepage, http://cs.nyu.edu/cs/projects/proteus/irex/

3) IREXワークショップ予稿集,IREX実行委員会 (1999)

4) 関根聡: テキストからの情報抽出, 情報処理, Vol.40, No.4, pp.370-373, 情報処理学会 (1999)

5) 宮本，松尾，森: IREX NEタスク結果分析, IREXワークショップ予稿集, pp. 107-114, IREX実行委員会 (1999)