比較があまり意味なかった（らしい）件

京大コーパスを試したと前回書いたが、比較のためにcabochaでも同条件で測定してみた。

           ok      ng     正答率

kakarot 266014 54603   83.0%

cabocha 291893 28724   91.0% (v0.64)

cabocha 304930 15687   95.1% (v0.65)

cabocha v0.65が（またしても）やたらいい。これももしかして、京大コーパス自体で学習してるからだろうか？v0.64から0.65では素性がかなり増えたようなので、自身で学習してるならこのくらい上がっても不思議はないのかも。

といっても学習する元ネタは京大コーパスかKNBCくらいしか存在しない（と思う）ので、じゃあ客観的な比較は難しいのか…などと考えながら情報を探していると、以前ちょっと言及した J.DepP のページでこんな記述を発見：

> training: 9501<01-11>.KNP and 95<01-08>ED.KNP, testing: 9501<14-17>.KNP and 95<10-12>ED.KNP

京大コーパスの約４分の３で学習し、測定はそれ以外の４分の１でやった、ということらしい。cabochaについての情報は見つけられなかったが、これがその道の標準（なのか？）というのならそうしてるのかもしれない。

ただそうだとすると、私がやってるような「京大コーパス全体に対する正答率」を比較するのは（一部を学習に使っているので）あまり意味がない、ということになりそうである。

あとついでに言うと、「京大コーパスの約４分の３で学習し、測定はそれ以外の４分の１で」というのも、正直ちょっとどうかなという気がする。というのは、1月1-11日の記事と14-17の記事って、実はあんまり独立ではないのだ。１日ごとに全く別の話題ばかり記事になるわけではなく、同じ話題が数日にわたって書かれることも多い。首相の訪米とか、ロシアの侵攻とか。なので、1-11日の記事で学習すれば、14-17日の記事にも相当役立つだろうと思われる。まあとはいえ、「他にアノテートされたコーパスがない」というのはいかんともしがたいのでしかたないのだろうが。

そういう意味では、前回cabocha作者さんが提供してくれたような「京大コーパスで学習したモデルで、KNBCで測定する」というのが（現状availableな範囲では）いちばん客観的なのかもしれない。（いやもちろん、毎回そんなモデル作るのも大変でしょうから、やってほしいとかいうわけではまったくないんですが。）

コードネームは初話ユウ

自然言語処理でいろいろやってみる

比較があまり意味なかった（らしい）件