比較があまり意味なかった(らしい)件
京大コーパスを試したと前回書いたが、比較のためにcabochaでも同条件で測定してみた。
ok ng 正答率
kakarot 266014 54603 83.0%
cabocha 291893 28724 91.0% (v0.64)
cabocha 304930 15687 95.1% (v0.65)
cabocha v0.65が(またしても)やたらいい。これももしかして、京大コーパス自体で学習してるからだろうか?v0.64から0.65では素性がかなり増えたようなので、自身で学習してるならこのくらい上がっても不思議はないのかも。
といっても学習する元ネタは京大コーパスかKNBCくらいしか存在しない(と思う)ので、じゃあ客観的な比較は難しいのか…などと考えながら情報を探していると、以前ちょっと言及した J.DepP のページでこんな記述を発見:
> training: 9501<01-11>.KNP and 95<01-08>ED.KNP, testing: 9501<14-17>.KNP and 95<10-12>ED.KNP
京大コーパスの約4分の3で学習し、測定はそれ以外の4分の1でやった、ということらしい。cabochaについての情報は見つけられなかったが、これがその道の標準(なのか?)というのならそうしてるのかもしれない。
ただそうだとすると、私がやってるような「京大コーパス全体に対する正答率」を比較するのは(一部を学習に使っているので)あまり意味がない、ということになりそうである。
あとついでに言うと、「京大コーパスの約4分の3で学習し、測定はそれ以外の4分の1で」というのも、正直ちょっとどうかなという気がする。というのは、1月1-11日の記事と14-17の記事って、実はあんまり独立ではないのだ。1日ごとに全く別の話題ばかり記事になるわけではなく、同じ話題が数日にわたって書かれることも多い。首相の訪米とか、ロシアの侵攻とか。なので、1-11日の記事で学習すれば、14-17日の記事にも相当役立つだろうと思われる。まあとはいえ、「他にアノテートされたコーパスがない」というのはいかんともしがたいのでしかたないのだろうが。
そういう意味では、前回cabocha作者さんが提供してくれたような「京大コーパスで学習したモデルで、KNBCで測定する」というのが(現状availableな範囲では)いちばん客観的なのかもしれない。(いやもちろん、毎回そんなモデル作るのも大変でしょうから、やってほしいとかいうわけではまったくないんですが。)