コードネームは初話ユウ

自然言語処理でいろいろやってみる

システム稼働開始

まただいぶ間が空いてしまったが、以前記事に書いた「オブジェクト指向意味理解システム」をここしばらく作っていた。去年8月頃から始めて、仕様作成3か月、コーディング半年弱。諸事情により1か月強中断の後、デバッグを1か月程してきたところ。ようやく、例文を平文で入力して、(ログを見るかぎり一見)正しく解析して出力を返すところまで来た。まだまだバグはありそうだし、またとりあえず動かすこと優先で作ったため、一部の機能は簡易化した実装になっている部分もあるものの、とにかくも最初から通して動いてくれるとやはり安心感がまるで違う。

システムの概要としては、以前の記事(これこれ)に書いたほぼそのとおりの物を作っている。眼目は

 ・係り受け、WSD、照応解析、述語項解析を同時に行う
 ・名詞の背後に「オブジェクト」を想定し、その属性をトラッキングする

の2点。

なお前処理として、形態素解析mecabを、文節分割はcabochaのそれをそれぞれ使っている。mecabの辞書はipadic固定。UTF-8固定。このあたりはkakarotと一緒。C++で現在5千行強。

プログラムは9割方できたと思うが、辞書はまだ例文を通すのに最低限必要なぶんしか入っていない(30エントリくらい)。とりあえずは日本語能力検定試験のN4レベル、2000語程度あれば日常会話程度は理解できそうなのでまずその辺を目指したい。だが辞書作成がかなり工数のかかる作業で、2000語は1年でできるかなぁ…というところ。まあ引き続き地道にやっていくしかないのだが。