自動用語抽出は専門分野のコーパスから専門用語を自動的に抽出する技術として位置付けられます。従来、専門用語の抽出は専門家の人手によらねばならず、大変に人手と時間がかかるため up-to-dateな用語辞書が作れないという問題がありました。そこで東京大学情報基盤センター中川裕志教授と横浜国立大学環境情報研究院森辰則研究室は、共同で、与えられた特定分野のコーパスのみの情報から専門用語を特定、抽出するシステムを開発してきました。本システムは、その成果をプログラムとして広く公開するものです。
専門用語の多くは複合語、とりわけ複合名詞である場合が大半を占めています。よって、本システムでは名詞(単名詞と複合名詞)を対象として専門用語抽出を行います。
まず対象となるコーパスから専門用語の候補となる語を抽出します。候補語は、名詞句が連続した複合名詞、または単名詞となります。単名詞とはこれ以上分割できない基本的な語のことを指し、形態素解析上最小単位の名詞に相当します。次に、各候補語の専門用語としての重要度を計算します。その結果、スコアの高い順に候補語をソートしたものを出力します。なお、重要度計算には単名詞バイグラムを用いることにより複合名詞がどのような単名詞で構成されているかという連接情報と候補語の頻度情報を手掛かりとしています。重要度計算の詳細については、参考文献(PDF形式,108KB)を御覧下さい。(情報処理学会第145回自然言語処理研究会)
まず、次項に示す和文対応用のキットをダウンロードしてください。これらは,日本語 Perl 5 のプログラムですので,日本語 Perl 5 も準備してください。入力ファイルは、UNIX バージョンの場合、形態素解析システム chasen(現在のところversion2.02のみ動作保証)によって形態素解析済みのものを用意します(茶筅の起動時オプションはデフォルトです)。Windows バージョンの場合、ChaSen for Windows によって形態素解析済みのものを用意します(起動時、発音以外をチェックしてください)。chasenについての詳細はhttp://chasen.aist-nara.ac.jp/を参照ください。
termex.plはスクリプトファイル名、オプションについては以下のようになっています。
デフォルトでは、一文字の語も固有名詞も候補の対象となっていません。出力ファイル名を指定しない場合、標準出力に結果が出力されます。
上記の出力例は、人工知能分野のコーパスを入力としたものです。左から、「候補語」、「スコア」、「単独出現頻度」が出力されています。なお、本システムは統計的手法を用いているので、入力ファイルが大きいほうがよりよい結果が得られます。
まず、次項に示す英文入力用のキットをダウンロードしてください。これらは,Perl 5 のプログラムですので,Perl 5 も準備してください。入力ファイルは、品詞タグ付与プログラムBrill's POS Tagger によって品詞タグ付与済みのものが必要となりますが、Brill's POS Tagger への入力をつくるのには,1行1文形式であること,決められたトークン化がされていることが必要なので,これを行なうために便利なツールとして,同キット内の tokenizer.pl をお使い下さい。 Brill's POS Tagger の詳細は Dr.Eric Brill のホームページhttp://research.microsoft.com/~brill/を参照ください。
スプリクトファイルtokenizer.plによって入力ファイルを1行1文、トークン化します。
tokenizer.pl 入力ファイル名 出力ファイル名この場合、出力ファイル名を必ず指定してください。次に、この整形されたファイルをBrill's POS Tagger によって形態素解析されたものを用意します。起動の仕方は和文入力の場合と同様ですが、オプションはありません。スクリプトファイルはtermex_e.plです。また、候補の対象となる語は、名詞、形容詞+名詞、名詞+of+名詞が基本形です。形容詞、名詞は連続していても構いません。
ダウンロードはこちら(termex.tar.gz,tar+gzip形式,4.5KB)から、お願いします。これをtarを用いて展開すると、日本語 Perl 5のスクリプトファイル"termex.pl"と同モジュール"Extract.pm"が得られます(共にEUCコード)。
1,2をダウンロード、解凍し同じディレクトリに保存してください。日本語 Perl 5のスクリプトファイル"termex.pl"と同モジュール"Extract.pm"が得られます(共にSHIFT-JISコード)。
ダウンロードはこちら(termex_e.tar.gz,tar+gzip形式,6.22KB)から、お願いします。これをtarを用いて展開すると、日本語 Perl 5のスクリプトファイル"tokenizer.pl","termex_e.pl"と同モジュール"Extract.pm"が得られます(共にEUCコード)。
使用にあたり,以下の各点にご留意ください.