コードネームは初話ユウ

自然言語処理でいろいろやってみる

比較があまり意味なかった(らしい)件

京大コーパスを試したと前回書いたが、比較のためにcabochaでも同条件で測定してみた。


           ok      ng     正答率

kakarot  266014  54603   83.0%

cabocha  291893  28724   91.0% (v0.64)

cabocha  304930  15687   95.1% (v0.65)


cabocha v0.65が(またしても)やたらいい。これももしかして、京大コーパス自体で学習してるからだろうか?v0.64から0.65では素性がかなり増えたようなので、自身で学習してるならこのくらい上がっても不思議はないのかも。

といっても学習する元ネタは京大コーパスかKNBCくらいしか存在しない(と思う)ので、じゃあ客観的な比較は難しいのか…などと考えながら情報を探していると、以前ちょっと言及した J.DepP のページでこんな記述を発見:

> training: 9501<01-11>.KNP and 95<01-08>ED.KNP, testing: 9501<14-17>.KNP and 95<10-12>ED.KNP

京大コーパスの約4分の3で学習し、測定はそれ以外の4分の1でやった、ということらしい。cabochaについての情報は見つけられなかったが、これがその道の標準(なのか?)というのならそうしてるのかもしれない。

ただそうだとすると、私がやってるような「京大コーパス全体に対する正答率」を比較するのは(一部を学習に使っているので)あまり意味がない、ということになりそうである。

あとついでに言うと、「京大コーパスの約4分の3で学習し、測定はそれ以外の4分の1で」というのも、正直ちょっとどうかなという気がする。というのは、1月1-11日の記事と14-17の記事って、実はあんまり独立ではないのだ。1日ごとに全く別の話題ばかり記事になるわけではなく、同じ話題が数日にわたって書かれることも多い。首相の訪米とか、ロシアの侵攻とか。なので、1-11日の記事で学習すれば、14-17日の記事にも相当役立つだろうと思われる。まあとはいえ、「他にアノテートされたコーパスがない」というのはいかんともしがたいのでしかたないのだろうが。

そういう意味では、前回cabocha作者さんが提供してくれたような「京大コーパスで学習したモデルで、KNBCで測定する」というのが(現状availableな範囲では)いちばん客観的なのかもしれない。(いやもちろん、毎回そんなモデル作るのも大変でしょうから、やってほしいとかいうわけではまったくないんですが。)