自然言語処理と系列ラベリング技術 浅原正幸
  あらまし 自然言語処理の分野は系列に対するラベル付与(系列ラベリング)問題として解かれるタスクが多くある。例えば、品詞ラベル付け問題は、入力を単語列とし、各単語に品詞を付与する系列ラベリング問題の1つである。このような背景から、教師あり学習による系列ラベリング技術が多く提案されてきた。本稿では、自然言語処理の分野でどのように系列ラベリング技術が利用されているかを概観するとともに、近年考案された系列全体において最適化を行う構造マッピング法に基づく系列ラベリング手法を紹介する。
  キーワード マルコフ過程、教師あり学習、系列ラベリング問題、構造マッピング
     
統計的統語解析 松本裕治
  あらまし 日本語や英語などの自然言語の文の統語構造を解析することは、言語解析の最も重要な処理である。従来は、文法規則を列挙し一般的な統語解析アルゴリズムによって文の構造を得るという手法が取られて来たが、多数の解析結果が得られることが多く、曖昧性の解消が重要な問題であった。近年、大規模な解析済み例文から統計的機械学習を用いることにより、従来の人手による規則の記述に基づく統語解析を遥かに凌ぐ手法が提案されている。本稿では、最近の統計的統語解析の2つのアプローチを概観する。
  キーワード 自然言語処理、文法、統計学習、句構造解析、依存構造解析
     
統計的機械翻訳 永田昌明
  あらまし 「統計的機械翻訳」(statistical machine translation)は、すでに翻訳されたある言語と別の言語の文のデータから翻訳規制や対訳辞書などに相当する数学的なモデルを学習し、ある言語の任意の文を別の言語に翻訳する技術であり、近年、自然言語処理の分野において最も注目を集めている技術といって過言ではない。本稿では、IBM翻訳モデル、句に基づく翻訳、階層的句に基づく翻訳など統計的機械翻訳の代表的な手法を概観する。
  キーワード 機械翻訳、対訳コーパス、言語モデル、翻訳モデル、デコーダ
     
共起に基づく類似性尺度
相澤彰子
  あらまし 情報を伝達するための文字の並びを「テキスト」と呼ぶ。テキスト中に出現するさまざなな構成要素は、その出現位置によって他の要素と関係づけられている。この要素どうしの関係が織りなす空間はどのようなものになるだろうか?言語処理の分野では、このような空間は「意味」と密接な関係がると考える。そして空間上での距離が近いものは、何らかの意味的な近さを持つという前提のもとに、さまざまな類似度尺度が適用される。本稿では、テキストをめぐるさまざまな「共起」事象について述べ、これらを扱うための統計的手法や適用事例を紹介する。
  キーワード 共起行列、シソーラス自動構築、類似度尺度、言語コーパス
     
言語処理を利用した知的情報アクセス
−検索、抽出、要約、分類、QA−
徳永健伸
  あらまし インターネットの普及により、世の中に大量の情報があふれかえるようになった今日、我々はコンピュータの助けなしにインターネット上の情報に効率よくアクセスすることができなくなった。インターネット上にはマルチメディア情報が多いとはいえ、情報の大部分は言語で記述されている。言語をコンピュータで理解することを究極の目的とする言語処理の研究は、ますます増大する情報に効率的かつ高度な方法でアクセスするのに役立つであろう。本稿では、言語処理を利用した情報アクセスの技術として、情報検索を中心に、その関連技術として情報抽出、文書要約、文書分類、QAシステムについて紹介する。
  キーワード 言語処理、情報検索、情報アクセス
     
頻出言語パターンのマイニング技術とその応用 工藤 拓
  あらまし 単語や文節、係り受け関係といった特定の言語パターンの頻度を数え個々の表現の分布を調査することは、自然言語処理でもっとも基本的な処理であることは疑いの余地はなく、その応用範囲は多岐にわたる。処理の内容はいたって単純であるが、大規模データを扱えるようアルゴリズムのスケーラビリティーを確保することは容易ではない。本稿では、頻出言語パターンマイニングアルゴリズムを概観するとともに、マイニングアルゴリズムを応用した機械学習法について紹介する。
  キーワード 頻出パターンマイニング、SE-Tree、PrefxSpan、最右拡張、機械学習、ブースティング