読者です 読者をやめる 読者になる 読者になる

コードネームは初話ユウ

自然言語処理でいろいろやってみる

文末表現のパターン・組合せ

4か月以上空いてしまった。今何をやってるかというと、前回書いた「オブジェクト指向自然言語理解システム」をちまちま作っている。仕様書を作り、コード半分くらい?書いたところ。動くまであと更に半年くらいかかりそうな気がする。仕様書といってもけっこうあちこち抜けがあるので、コード書いてて「あれ?ここどうしたらいいんだろう」と考えこんで数週間、とかいうのもしばしば。

そういう数ある抜けの中で、文末表現のパターン・組合せをきちんと考えていなかったというのがあり、ちょっと考えてまとめてみた、というのが今回のお題である。

ここで「文末表現」と言ってるのは、テンス・アスペクト・否定・ヴォイス・モダリティの5つを指す。

テンス(時制) - タ(過去) のみ
アスペクト - テイル(進行)、テアル、テシマウ(完了) 等
否定 - ナイ、マセン のみ
ヴォイス - セル/サセル(使役)、レル/ラレル(受身) のみ
   *可能をヴォイスに入れる考え方もあるようだが、ここでは可能は除くとする
モダリティ - たくさん:後述

これらが実際の文でどういうパターン/組合せで出てくるのかをできるだけ網羅的に知りたい、という話なのだが、ちょっとググった程度では答えが見つからなかった。なので、自分の脳内で「こういう文は成り立つか?これはどうか?」などといろいろ試してみた結果をまとめたものである。もしかしたらどっかの文法書とかにまとめられてるのかもしれない。そうだと車輪の再発明だけど。また、もしかしたらどっか間違ってるかもしれない。その場合は指摘歓迎。

1)ヴォイスとアスペクト

・ヴォイスとアスペクトはこの順に出る。「食べられている」

・ヴォイスは使役受身同時がありうる。その場合は必ず使役->受身の順。
「食べさせられる」は使役受身が同時に、この順に出た例。「食べられさせる」はNG。

・ヴォイスのセル/サセル、レル/ラレルはそれぞれ、動詞のよって片方しか使えない
五段動詞はセル・レル、一段動詞はサセル、ラレルを使うと決まっている。
書かせる/書かれる <-> 食べさせる/食べられる

・ヴォイスとアスペクトは動詞にしかつかず、他(テンス・否定・モダリティ)より先に来る。
まず前提として、述語には A)動詞、B)形容詞、C)名詞+ダ、の3つがある。で、ヴォイスとアスペクトは動詞にしかつかない。(「赤くている」とかはNG)
ヴォイスとアスペクトは動詞の直後につくため、テンス・否定・モダリティより先に来る。
「食べていなかったらしい」「食べさせてしまったようだな」

・アスペクトは同時にひとつしか出ない。「食べていてしまう」はNG。


2)否定とテンス

・否定とテンスが同時に出るときは、必ずこの順で、続けて出る。
同時に出るのは「…なかった」「…ませんでした」のみ。いずれも否定が先。

・否定は同時にはひとつしか出ない。(※テンスは元々「タ」ひとつしかない)
 (ただし否定もテンスも、推量モダリティをはさんで2か所に出る場合を除く。後述)
「…しないません」はNG。 #とか何を当たり前のことを書いてるんだか…


以上の1)、2)をまとめると、モダリティが絡まない場合は、順序は
ヴォイス -> アスペクト -> 否定 -> テンス
になる。「食べさせていなかった」
また、アスペクト、否定、テンスはそれぞれ最大ひとつずつしか出ない。ヴォイスだけは使役受身が同時に出れる。

…ここまでは、内省でやっている部分が多いがまあたぶん正しいと思う。ここからがちょっと怪しくなる。


3)モダリティの種類

モダリティの分類についてはググるとけっこう情報が出てくるし、文法書にもある。細かい分類については若干違いがあるようだが、大枠は大体似ている。ここではそれっぽい分類を適当にひとつ挙げておく。

述べ立て: モダリティ標識なし。事実を事実として述べる。
 行く
 行った

表出: 一人称(話し手)の思い・意向を表す
 行こう  意志(*)

 行くつもりだ  意志
 行きたい    希望
 行ってもいい  許容

働きかけ: 一人称(話し手)から二人称(聞き手)への何らかの働きかけを表す
 行きなさい    命令(*)
 行ってください  依頼(*)
 行きましょう  勧誘(*)

 行った方がいい  忠告
 行くべきだ   義務
 行かなければならない/いけない 義務
 行ってもいいです 許可
 行かなくてよい  不必要
 行ってほしい 願望
 行ってはいけない 禁止

推量: 事態の認識について、話し手の確信度を表す
 行くだろう  断定保留
 行くかもしれない 可能性
 行くはずだ  含意
 行くにちがいない 思い込み
 行くようだ・みたいだ 推測
 行くらしい  推測
 行くそうだ  伝聞

その他: 
 行くのだ   説明
 行くわけだ  説明
 行くか?   疑問
 行くのではないか? 疑問
 行くね   感嘆
 行くわ   感嘆
 行きます  丁寧 
 …です   丁寧


その他のところのラベルの「説明」とか「感嘆」とかはいまいちしっくりこないが、たまたま私が見ていた本にこう分類されていた、くらいに思ってほしい。

網羅的にカバーしようと思うと他にもあるだろうが、100%を目指すときりがないので、このくらいでまあ現代日本語における実使用の9割以上はカバーしてるだろう、と仮に思って、これらについて検討するという方向で話を進めていく。

ちなみに網羅的にと思うなら、名古屋大のつつじがいちばんまとまっていると思う。これは「機能表現」のリストで、格助詞的なものや接続助詞的な表現も含んでいるが、文末表現にあたるのはおおむね w11-M11 である。モダリティだけでなくヴォイス、アスペクト、否定、テンスも含んでいる。


4)モダリティ標識間の出現制約

・「呼びかけ型」のモダリティは基本単独で使う
ここで「呼びかけ型」と言ってるのは、上で(*)をつけたものである。
「行こう」「行きましょう」などは、基本的にそのままの形で使うもので、これに他のモダリティがつくことはない。(ただし疑問の「か」、感嘆の「ね」は例外的につくこともある)

・非呼びかけ型は、次の順序で出る
 表出/働きかけ -> 推量 -> 丁寧 -> 疑問 -> 感嘆     (+)
 各カテゴリ内では、最大ひとつずつしか出ない
 「行くべきかもしれないですかね」
 「帰ってきてほしいにちがいありませんよ」

なお、「にちがいない」は既に否定が入っているので、これに否定がつくことは通常ない。(「ちがいなくない」とかいうのもまああるといえばあるが、これは通常でない、ある種ふざけた文だろう。こういうのは考えないとする。)感嘆の「ね」「わ」は大体何にでもつく一方、疑問「か」はたとえば「だろう」や「いい」「ほしい」等にはつくが「…だ」型にはつかない。こういうのは他にもあると思うので、(+)の可能な列がすべてありえる、と主張しているわけではない、という点は了解いただきたい。

『各カテゴリ内では最大ひとつ』については例は示さないが、興味ある方は確認してみてほしい。というのはこの辺、いろんな変な例を考えついてはチェック、というのをずっと続けていると、感覚がおかしくなってきて、何が正しいのか自信がなくなってくるのである。毒されていないフレッシュな頭でチェックしてみていただけると幸いである。

ウェブページとかもちょっと見て実際の文を検討しようとしたのだが、うだうだといくつもの文末表現が続くような文ってなかなかないのだ。まあ当たり前といえばそうなんだけど。だとしたらあんまりこんなとこで考えこんでも意味ないのか?少納言で検索しようとしたら、検索文字列10文字までしか受付けられなくて挫折した。


5)モダリティとヴォイス、アスペクト、否定、テンスの関係

・ヴォイスとアスペクトは、出るなら最初に出る。モダリティは必ずその後。
これは先に1)でも書いたように、ヴォイスとアスペクトは動詞につくため。

・否定とテンス(or その両方)は、推量モダリティの前と後で2回出現しうる
否定とテンスが同時に出るならば必ずこの順で、続けて出る、というのは2)で書いたとおり。なので否定とテンスをひとまとまりで考えることにする。ただしこれが丁寧と組み合わさると「なかったです」か「ませんでした」となり、後者では 否定->丁寧->テンス、となるので注意。
で、上の4)の非呼びかけ型の順序 (+) とここでの主張を合わせると、次の順序で出ることになる。

 ヴォイス -> アスペクト ->
 表出/働きかけ -> (否定+テンス) -> 推量 -> (否定+テンス+丁寧) -> 疑問 -> 感嘆  (#)

 「行くべきじゃなかったかもしれないですかね」
 「帰ってきてほしいようではなかったですよ」

くどいようだが、各カテゴリ内では、ヴォイスを除いて最大ひとつずつしか出ない。また推量がないならば、否定/テンスが2つ続きはしない。

否定が2回出る場合のそれぞれの意味は、推量の後の否定が「推量していること自体の否定」、推量の前の否定が「推量の対象の内容に関する否定」。(で合ってるだろうか)

1.彼は食べたいようだ     彼は今食べたそうにしている、と私が思っている
2.彼は食べたくないようだ   彼は今食べたくないのだろう、と私が思っている
3.彼は食べたいようではない  彼は今食べたそうにしている、と私が思っていない
4.彼は食べたくないようではない  彼は今食べたくないのだろう、と私が思っていない

言い換えると、「食べたいか食べたくないか」について、a)食べたい b)食べたくない c)どちらでもない、としたとき、私が思っているのは
1. a
2. b
3. b or c
4. a or c

という理解(で正しい?)

テンスが2回出る場合のそれぞれの意味は、推量の後のテンスが「推量している時点が過去か」、推量の前のテンスが「推量の対象が、推量している時点より過去か」で合ってるだろうか。

彼は食べたいようだ     彼が目の前にいて、今食べたそうにしている
彼は食べたいようだった   過去の時点で彼が目の前にいて、その時食べたそう

              にしていた


彼は食べたかったようだ   少し前まであったケーキが今はなくなっているが、

              彼はそのケーキを食べたかったみたいだな、と

              今私が見ていて思っている


彼は食べたかったようだった 過去の時点で、その時の少し前まであったケーキが

              その時にはなくなっているが、彼はそのケーキを

              食べたかったみたいだなと、
              その過去の時点で見ていた私が思っていた


まあとにかく、上の (#) がいちおう今回の結論。上でモダリティ標識だけで30個ほど挙げているが、2の30乗通りとかよりはかなり可能なパターンの数は絞れたと思う。