コードネームは初話ユウ

自然言語処理でいろいろやってみる

小学1年の国語教科書でつつじのカバー率をみる

今作っているシステムで、機能表現については前回言及した「つつじ」をベースに文法を入れていこうと考えていた。つつじの機能表現には大きく分けて格補語系、文末表現系、接続関係系の3種があるが、私の作業上文末表現系、接続関係系の2つが当面気になっている。つつじはどの程度信頼できるのだろう?漏れはないのだろうか?

この点を検証するため、小学1年の国語教科書を調べて、使われている文末表現系、接続関係系の機能表現がつつじに含まれているかを調べた。

使った教科書は、教育出版の「ひろがることば」。1年ぶんが上下に分かれているが、両方みた。5年くらい前のもので、平成16年検定、とある。字が大きくスカスカなので、全部見てもそう大した量ではない(でなければそんなめんどくさいことやる気はしない)。人が目で見てのチェックなので、もしかしたら見落とし・勘違い等がないとはいえないことを付記しておく。

出てきた表現と、それがつつじにあった場合はつつじの分類・意味コードを記す。なければ'-'。ないものは、単独でわからなそうな場合は用例を示す。

【文末表現系】
ね 感嘆 w31
な 感嘆 w21
よ 感嘆?「みつけたよ」 -
の 疑問「たべたの?」 -
たい 願望 z31
う(よう) 意志 G11
た 過去 B21
か 疑問 x11
かな 疑問 x11
のだ(んだ) 説明?「…したんだ」 - (?判断D31?)
ている 継続 J31
てしまう 完了 B21
てくる 着継続 J33
ことの(が)できる 可能 E11
う(よう)とする 意志 G11
てもらう 受益 K31
れる(られる) 受動 -
ください 依頼 z26
せる(させる) 使役 -
てみる 試行? -
よう(みたい) 比況 R11
<以下下巻>
ことか 感嘆 w21
かもしれない 推量 I11
ようになる 自然発生 H11
ことがある 可能性? -
や 否定強調?「来やしない」 -

【接続関係系】
て 順接確定 r32
ながら 付帯 v21
と 順接確定 r31
たり 並列 -
たら 順接確定 r31
ように 目的?「人にわかるようにはなす」 -
てから 継起 p12
ては 反復 r33
から 理由 s22
ので 理由 s22
<以下下巻>
かぎり 範囲?「みわたすかぎり」 - (強調D44?)
ても 逆接仮定 t12
まま[で] 付帯 v11
ば 順接仮定 r21

以上、40表現中、11表現がつつじにない、という結果になった。カバー率72%。

もしかすると、私がつつじの定義なりを勘違いしてる部分もあるのかもしれない。たとえば「説明のノダ」は、もしかしたらつつじでいうと「判断 D31」とかなのかもしれない。つつじを見るだけでは、「判断のノ」ってどういうのを言うのかわからないのだ。同様に「強調 カギリ D44」もどういう用法のことかぱっとわからない。

ただそれにしても、小学1年レベルでカバー率8割足らずというのは、やはり物足りない。もちろん、批判しているわけではない。つつじの意義自体は私も大いに評価しているし、作成チームには大変感謝している。というか他に類似のものがないのでこれを使うしかないし。ただ、現状のつつじはおそらく「まず一発作ってみた」レベルだと思うので、これから実地で使っていくなかで更にブラッシュアップしていく必要があるんだろうな、また私のように使う立場からすると、「つつじを使うから安心!」とはいかず、自分でチェックして適宜追加する必要があるな、ということである。

小学1年をやって、次どうしようか、2年、3年くらいまでやろうか、迷っているところ。いずれやらなくてはいけなさそうな感じではあるが、けっこう大変なんだよな…