各種サービス(ダウンロード)

専門用語自動抽出システム(配布) / 横浜国立大学校章画像ファイル一覧

専門用語自動抽出システム(配布)

1. はじめに

自動用語抽出は専門分野のコーパスから専門用語を自動的に抽出する技術として位置付けられます。従来、専門用語の抽出は専門家の人手によらねばならず、大変に人手と時間がかかるため up-to-dateな用語辞書が作れないという問題がありました。そこで東京大学情報基盤センター中川裕志教授と横浜国立大学環境情報研究院森辰則研究室は、共同で、与えられた特定分野のコーパスのみの情報から専門用語を特定、抽出するシステムを開発してきました。本システムは、その成果をプログラムとして広く公開するものです。

2. 原理

専門用語の多くは複合語、とりわけ複合名詞である場合が大半を占めています。よって、本システムでは名詞(単名詞と複合名詞)を対象として専門用語抽出を行います。

まず対象となるコーパスから専門用語の候補となる語を抽出します。候補語は、名詞句が連続した複合名詞、または単名詞となります。単名詞とはこれ以上分割できない基本的な語のことを指し、形態素解析上最小単位の名詞に相当します。次に、各候補語の専門用語としての重要度を計算します。その結果、スコアの高い順に候補語をソートしたものを出力します。なお、重要度計算には単名詞バイグラムを用いることにより複合名詞がどのような単名詞で構成されているかという連接情報と候補語の頻度情報を手掛かりとしています。重要度計算の詳細については、参考文献(PDF形式,108KB)を御覧下さい。(情報処理学会第145回自然言語処理研究会)

3. 使用方法

3.1 和文対応版

まず、次項に示す和文対応用のキットをダウンロードしてください。これらは,日本語 Perl 5 のプログラムですので,日本語 Perl 5 も準備してください。入力ファイルは、UNIX バージョンの場合、形態素解析システム chasen(現在のところversion2.02のみ動作保証)によって形態素解析済みのものを用意します(茶筅の起動時オプションはデフォルトです)。Windows バージョンの場合、ChaSen for Windows によって形態素解析済みのものを用意します(起動時、発音以外をチェックしてください)。chasenについての詳細はhttp://chasen.aist-nara.ac.jp/を参照ください。

*起動の仕方(UNIX)

termex.pl [-[p][s]] 入力ファイル名 出力ファイル名

*起動の仕方(Windows,DOS上)

jperl termex.pl [-[p][s]] 入力ファイル名 出力ファイル名

termex.plはスクリプトファイル名、オプションについては以下のようになっています。

  • -s   一文字語を候補語にカウントする
  • -p   固有名詞を候補語にカウントする
  • -ps  一文字語と固有名詞の両者を候補語にカウントする

デフォルトでは、一文字の語も固有名詞も候補の対象となっていません。出力ファイル名を指定しない場合、標準出力に結果が出力されます。

*出力例

知識              314357.63 55
システム            314200.36 25
問題              311707.81 37
学習              311569.99 11
知識ベースシステム       310185.84 7
遺伝的アルゴリズム       309789.33 10
確率的言語モデル        308215.42 4

上記の出力例は、人工知能分野のコーパスを入力としたものです。左から、「候補語」、「スコア」、「単独出現頻度」が出力されています。なお、本システムは統計的手法を用いているので、入力ファイルが大きいほうがよりよい結果が得られます。

3.2 英文対応版

まず、次項に示す英文入力用のキットをダウンロードしてください。これらは,Perl 5 のプログラムですので,Perl 5 も準備してください。入力ファイルは、品詞タグ付与プログラムBrill's POS Tagger によって品詞タグ付与済みのものが必要となりますが、Brill's POS Tagger への入力をつくるのには,1行1文形式であること,決められたトークン化がされていることが必要なので,これを行なうために便利なツールとして,同キット内の tokenizer.pl をお使い下さい。 Brill's POS Tagger の詳細は Dr.Eric Brill のホームページhttp://research.microsoft.com/~brill/を参照ください。

*toknizer.plの使用例

スプリクトファイルtokenizer.plによって入力ファイルを1行1文、トークン化します。

tokenizer.pl 入力ファイル名 出力ファイル名

この場合、出力ファイル名を必ず指定してください。次に、この整形されたファイルをBrill's POS Tagger によって形態素解析されたものを用意します。起動の仕方は和文入力の場合と同様ですが、オプションはありません。スクリプトファイルはtermex_e.plです。また、候補の対象となる語は、名詞、形容詞+名詞、名詞+of+名詞が基本形です。形容詞、名詞は連続していても構いません。

4. ダウンロード

4.1 和文対応版

* UNIX バージョン

ダウンロードはこちら(termex.tar.gz,tar+gzip形式,4.5KB)から、お願いします。これをtarを用いて展開すると、日本語 Perl 5のスクリプトファイル"termex.pl"と同モジュール"Extract.pm"が得られます(共にEUCコード)。

* Windows バージョン

  1. スクリプトファイル(termex.zip,zip形式,1.17KB)
  2. perl モジュール(Extract.zip,zip形式, 3.83KB)

1,2をダウンロード、解凍し同じディレクトリに保存してください。日本語 Perl 5のスクリプトファイル"termex.pl"と同モジュール"Extract.pm"が得られます(共にSHIFT-JISコード)。

4.2 英文対応版

ダウンロードはこちら(termex_e.tar.gz,tar+gzip形式,6.22KB)から、お願いします。これをtarを用いて展開すると、日本語 Perl 5のスクリプトファイル"tokenizer.pl","termex_e.pl"と同モジュール"Extract.pm"が得られます(共にEUCコード)。

5. 使用条件

使用にあたり,以下の各点にご留意ください.

  1. 本システムのダウンロードは無償である。
  2. 本システムの改良については特に制限をしない。ただし、改良版の再配布にあたっては、本システムを元にしたことを明記されたい。
  3. 当方での実験ではUnix, Windows において動作確認されているが、ダウンロードした個々の利用者の環境における本システムの正常動作は、保証しない。
  4. 本システムを利用した結果を論文などで公表する際には、「東京大学中川研究室・横浜国立大学森研究室で開発された用語抽出システムを使用した」ことを明記されたい。
  5. 本システムの使用において生じたいかなる結果に関しても当方では責任を負わない。