ちょっと立ち止まって分析してみる - コードネームは初話ユウ

ツテをたどって、京大コーパスなるものにアクセスできたのでちょっとトライしてみた。正答率83.0%。KNBCとあまり変わらないレベル。元データがフリーでないので環境の公開はしないが、やってることとしてはcabOnKnbcと似たようなことをやっている。(IPA辞書の文節に変換して、できなかった文章は外して、etc）

今までは改善ネタを探すのに、誤答を出した文章をいくつか見てみてその解析結果を見て考える、というまあなんというか原始的なやり方がメインだったが、京大コーパスはKNBCよりかなり量が多く、いくつかの誤答を見ただけではちょっと対応しきれないかも（時間かけて改善して、正答数3とかしか上がらなかったら悲しい）、という気がする。なので、まずコーパスの文章はどんな感じなのか、どんな傾向があるのか、どういうところで間違えているのか、どこを修正すべきなのか等をつかむため、いくつか統計をとってみた。結果を以下にまとめてみる。

・文章あたりの文節数

対象とした文章の数と、それに含まれる文節の数を数えた。文節区切りはcabochaによるもの。結果：

文章数 37027 文節数 358744

一文あたり9.7文節。ちなみに、1文節と2文節の文は除いてある（係り受けやる意味がないので）ため、実際にはもう少し短いはずだが、まあ大勢には影響ない。

・文あたり文節数の分布

1-10: 0 4 1744 2494 3095 3434 3523 3356 3177 2830

11-20: 2405 2166 1803 1497 1149 933 718 558 505 342

21-30: 286 248 189 123 87 96 70 49 43 18

31-40: 19 17 7 14 8 7 4 4 2 1

41-50: 0 2 0 0 0 0 0 0 0 0

上の見方は、たとえば３文節からなる文章は1744個あった、ということ。コーパス中には、かぎかっこの中に引用文が複数あって句点（。）で区切られてるものもあるのだが、その辺は気にせず単純に数えている。1文節の文は除いたんじゃないの？と自分で書いててつっこみたくなるのだが、なぜ4個あるのか、原因調べてない。

・文節機能辞の品詞分布

全ての文節を、文節の機能辞(≒ 最後の形態素）の品詞で分類してみた。ただし助詞の場合は細分類まで見た。

動詞 33568

助動詞 39305

名詞 30713

副詞 8412

格助詞 112464

係助詞 39438

副助詞 3038

終助詞 162

接続助詞 11975

並立助詞 6119

副詞化 3100

連体化 52694

形容詞 5924

接続詞 4362

感動詞 52

連体詞 5516

total 356842

たとえば格助詞の場合なら、その文節が「XXが(/を/に/…)」の形だった、ということ。

トップ６が格助詞、連体化（ノ）、係助詞（主にハ、モ）、助動詞、動詞、名詞。この６つで86%を占める。

・誤答の係り元の品詞分布

係ろっとが誤答したケースについて、上と同じく係り元文節の機能辞の品詞で分類してみた。

動詞 4015

助動詞 2933

名詞 12757

副詞 1552

格助詞 12698

係助詞 9429

副助詞 1394

終助詞 283

接続助詞2859

並立助詞1941

副詞化 269

連体化 3143

形容詞 436

接続詞 810

感動詞 26

連体詞 198

total: 54746

トップ５は名詞、格助詞、係助詞、動詞、連体化。この５つで76%、約４分の３を占める。なお、このほかにフィラーとか接頭詞とかがあるため、数字は細かいところまでは合っていない。また、上の数字との比較では、最後の２文節を除くか否かとかで処理に違いがあるため、やはり細かいところは整合性がない。

終助詞が誤答数＞総数になってて変だと思ったが、調べてみたら助詞カの細分類が「副助詞／並立助詞／終助詞」となっていて、ここの関係で数え間違いしていた。大勢に影響ないと思われるのでほうってある。

この数字と上のを比べると、品詞別の誤答率、なんてものも出せる。どのタイプの誤答をまずいちばんに調査するべきなのかと考えると、誤答数をみるべきか総数(誤答率）もみるべきか迷うところ。たとえば連体化助詞などは誤答数はそれなりに多いが総数も多く、誤答率としてはけっこう低い。これを修正しても、ひとつの修正で直るのはごく一部なんじゃないだろうか、などとよけいなことを考えてしまう。

・文あたり述語数の分布

0- 9: 0 6833 10348 8240 5360 3017 1557 804 458 204

10-19: 91 57 24 13 6 6 2 2 1 0

20-29: 0 0 0 0 0 0 0 0 0 0

これの見方は、文中に１個だけ述語を持つ文が6833個あった、ということ。なんでこれを数えたかというと、格補語にせよ接続助詞にせよ「述語のみに係る」文節は多いので、誤答の多くは「述語が複数あって、そのどれに係るかを間違う」ケースが多いと思ったからである。上の数字から平均を計算すると、１文中の述語（動詞、形容[動]詞、名詞＋助動詞ダ）の平均個数は3.0である。

以上から見ると、やっぱり名詞がまずそうかな。と思ってログを見ると、副詞可能タイプ（結局、当面、etc）の扱いは明らかにおかしそう。あと格助詞が多いか。格助詞については、たとえば日本語係り受けコーパス等から(名詞、格助詞、述語）の組の頻度をとってきて判定に使えば改善できるんじゃないか、などと考えたり。係助詞についても格助詞の情報が使えそうか。まあいろいろと改善点はありそうである。