日本語教育通信 日本語・日本語教育を研究する 第43回

日本語・日本語教育を研究する
このコーナーでは、これから研究を目指す海外の日本語の先生方のために、日本語学・日本語教育の研究について情報をおとどけしています。

筑波大学名誉教授 砂川 有里子

すぐに使えるオンラインコーパスとオンライン検索ツール

1.はじめに

 コーパスとは、新聞やいろいろなジャンルの書籍、雑誌、ブログなどの文章や、雑談、講演、インタビューなどの音声を大量に集めて文字化したものを、コンピュータで処理できるように電子化した言語資料のことで、言語研究や言語教育に役立てられています。日本語教育の世界でも、コーパスを使うことで母語話者や学習者の日本語の使い方が容易に把握できるようになり、語彙や文型や表記(カタカナを使うかひらがなを使うか、どの漢字を使うかなど)の微妙な使い分けの調査や、学習者のレベルや母語に応じた問題点の発見など、直観では気づきにくい日本語の特徴や学習の課題が次々と明らかになっています。また、日本語教育に必要な語彙の選定、実際の言語使用を反映した教科書の編集、学習辞書や参考書の編集などにも利用されています。コーパスを使った研究や教材開発は今後ますます盛んになるものと思われます。
 一方で、コーパスを使うには特殊な技術や知識が必要だと考え、使用を控えている方も少なくないと思います。今回はそういう方のために、ウェブから無料で簡単にアクセスできて日本語教育に役立つ母語話者コーパスを書き言葉と話し言葉に分けて紹介し、それらを検索するためのオンラインツールの使い方を説明します。また、学習者コーパスについても簡単に紹介します。
 なお、コーパスに関してより多くの情報を得たい方は『コーパス日本語学の情報館』(http://jhlee.sakura.ne.jp)をご覧ください。

2.母語話者の書き言葉コーパス

 代表として挙げられるのは、『現代日本語書き言葉均衡コーパス(BCCWJ)』です。BCCWJは、日本語の多様性をできるだけ正確に反映できるよう、書籍、新聞、雑誌、ブログなど多様なレジスター(使用域)からバランス良くサンプルを収集して構築した約1億語のコーパスで、2011年に公開されました。
 BCCWJには「少納言」(http://www.kotonoha.gr.jp/shonagon/)と「中納言」(https://chunagon.ninjal.ac.jp)という2つの検索ツールがあります。「少納言」は文字列検索しかできず、データのダウンロードもできないなどの制約がありますが、登録不要で今すぐ使えます。一方、「中納言」は登録が必要ですが、現在は無料で使うことができ、後で紹介するように、自分の探したい表現を細かく指定したり、検索結果をダウンロードできたりするので、大変便利です。

『中納言』のログインページの画像
図1 『中納言』のログインページ

『中納言』ログイン後のトップページの画像
図2 『中納言』ログイン後のトップページ

 もう少し詳しく見ていきましょう。使い方が簡単な「少納言」は文字列検索しかできないので、例えば、接続助詞の「から」を検索しようとすると、「また楽し(から)ずや」や「預(から)せてもらいます」なども拾ってしまいます。しかし、「中納言」では品詞を指定することができるので、図2の矢印①の部分の「--選択--」をクリックし、図3のように書字出現形を「から」、品詞を「助詞-接続助詞」と指定すれば、接続助詞の「から」を含む用例だけを検索してくれます。

接続助詞「から」の検索の画像
図3 接続助詞「から」の検索

 「中納言」は、複数の語の連続を検索することができます。例えば「から」がどのような動詞とよくいっしょに使われているか(共起するか)を調べたいと思ったときには、図2の「後方共起条件の追加」(矢印②)を開き、「後方共起1」というところで図4のように指定すれば、調べられます。

後方共起の指定の画像
図4 後方共起の指定

 図5はその検索結果で、6,806件の用例が見つかったことを示しています。

「から+動詞」の検索結果の画像
図5 「から+動詞」の検索結果

 画面上に表示されているのはそのうちの500件だけですが、検索結果をダウンロードすれば全ての用例を見ることができます。また、図5の矢印①の箇所(「後文脈」の右側にある黒い三角形)をクリックすれば、動詞をソートしてくれますので、「から」に続く動詞に何がよく使われるのかなどが分かります。さらに、「後方共起」のいくつかを詳しく指定することにより、「からか」「からには」「からといって」など「から」と複合した様々な表現を調べることができます。
 また、「中納言」は、「あう」「会う」「逢う」のような異表記の語や「会う」「会い」「会え」などの活用形を一括して検索することができます。例えば、「あう(「人にあう」の意)」の異表記と活用形を一括して検索したい場合は、図2の四角い囲みの箇所(矢印①)にある「キー」の下の「--選択--」から「語彙素」を選び、「会う」と入力して検索します。
 書籍、新聞などのレジスターや年代を指定したいときは、図2の画面左側上部にある「検索対象」の「検索対象を選択」(矢印③)をクリックして、必要なものにチェックを入れます。図6では「出版・新聞」の「コア」にチェックを入れてありますが、この「コア」とは「コアデータ」のことで、形態素解析(文章を単語に区切り、品詞等を判別すること)をしたデータを人手で修正したものです。「非コア」と比べるとデータの量はずっと少なくなりますので、件数は減りますが、より精度の高い形態素解析の結果が得られます。

検索対象の絞り込みの画像
図6 検索対象の絞り込み

 BCCWJを使えば、書き言葉のさまざまなレジスターの特徴、つまり新聞やブログ等の記事で使われる語彙や表現、表記の違いといった特徴が調べられます。また、シラバス作成や辞書編集のための日本語教育語彙表の作成、語彙や文型の意味や用法の記述、語彙や文型の難易度判定、語彙シラバスや文法シラバスの評価など、日本語教育に関わる種々の研究に役立ちます。

3.母語話者の話し言葉コーパス

 国立国語研究所のホームページから「データベース・データ集」(https://www.ninjal.ac.jp/database/)の画面に入ると、「日本語教育に関する研究・資料等」という項目があり、日本語教育に役立ついろいろなデータを得ることができます。ここではその中から、母語話者の話し言葉コーパスの代表として『日本語自然会話書き起こしコーパス(旧名大会話コーパス)』を紹介します。このコーパスには日本語母語話者の雑談120件、合計約100時間分が納められています。容量は大きくないですが、無料でウェブから手に入る貴重なコーパスで、フィラーや言いよどみ、「ってば」「なきゃ」など、話し言葉特有の表現を調べるのに便利です。
 このコーパスには『茶漉(ちゃこし)』(http://tell.cla.purdue.edu/chakoshi/public.html)という検索ツールがあります。この検索ツールを使うと、例えば、「軽い」がどんな名詞を修飾することが多いか、「はず」の直前にどんな語が使われることが多いかなど、語と語のつながりの強さ(コロケーション)を調べることができます。コロケーションの情報は、その語の典型的な用例を探したり、類似する表現(「はず」の場合は「つもり」や「見込み」など)との違いを考えたりするのに便利です。今回は「はず」の直前にどんな語が使われることが多いかを調べてみましょう。
 まずは図7の画面左上の「コーパス設定」で「名大会話コーパス」(矢印①)にチェックを入れてください。次に、どの範囲の語のつながりを調べるかを「検索パターン設定」の「スパン」によって指定します。「スパン」とは検索する語の前後の語数で規定され、コロケーションを持つ語を探す範囲のことです。今回は「はず」と直前の語とのつながりだけを見たいので「前「1」語、後「0」語」のように指定します(矢印②)。次に、紫色で示された「kw」(検索キーワード)の「語形」に「はず」と入力します(矢印③)。「はず」がどんな活用語(動詞や形容詞)と使われる傾向があるかを知りたいときは、名詞といっしょに使われる「~のはず」という形を除去する必要があります。その場合は、「-1」の「語形」に「の」を入力し「除外」にチェックを入れます(矢印④)。
 語と語のつながりの強いものだけを検索したいのか、弱いものも含めて検索したいのかは、「コロケーション出力設定」のtスコア閾値とMIスコア閾値で調整できます。この2つのスコアはコロケーションの強度をあらわす指標で、数値が大きいほどコロケーションが強いことを示します。今回はデフォルト値(t=2.0、MI=3.0、コーパス言語学でよく使われる目安の値)をそのまま使いましょう(矢印⑤)。また、今回は「はず」が使われている文そのものだけを見ればいいので、「はず」が含まれている文の前後の文脈は必要ありません。そこで、「kwic出力設定」(kwicはキーワードとその文脈を表示する表示形式)の「文数指定」を前後とも「0」に指定し(矢印⑥)、検索開始ボタンを押します。

『茶漉』のトップページの画像
図7『茶漉』のトップページ

 「コロケーション情報」は、「KWIC出力」された用例のあとに図8のように表示されます。ここで表示されるのは、「コロケーション出力設定」のtスコア閾値とMIスコア閾値で指定された強さのつながりを持つ形態素(≒単語)です。これらの数値をもっと低くすれば、より多くの形態素が表示されます。
 この表から「はず」の直前には過去を示す「た」のほかに、非過去の「ある」「いる」「てる」「ない」など状態性を表す語が強く共起することがわかります。一方、同様に検索を行うと、「つもり」は「いう」「た」「てる」、「予定」は「行く」が表示され、どちらも意志的な動作を表す動詞と強く共起することが分かります。こういった情報は、それぞれの典型的な用例を考えたり、意味や用法の違いを考えたりするのに役立ちます。

「○○+はず」のコロケーション情報の画像
図8 「○○+はず」のコロケーション情報

4.学習者コーパス

 日本語教育では学習者がどのような日本語を使っているか(あるいは使えないでいるか)を調査することが必要です。それにより、学習者の過剰使用、過少使用、間違えやすい項目、母語話者別の問題点などが明らかになります。いくつか、ご紹介しましょう。

学習者の書き言葉コーパス:
『日本語学習者作文コーパス』(http://sakubun.jpn.org
『日本・韓国・台湾の大学生による日本語意見文データベース』(http://www.tufs.ac.jp/ts/personal/ijuin/koukai_data1.html

学習者の話し言葉コーパス:
『日本語学習者会話データベース』(https://nknet.ninjal.ac.jp/nknet/ndata/opi/
C-JASCorpus of Japanese As a Second language)』
https://ninjal-sakoda.sakura.ne.jp/lsaj/
※どちらも日本語学習者と面接者(日本語母語話者)によるインタビューデータですが、前者は横断的、後者は縦断的なデータです。

日本語と学習者の母語との対照コーパス:
『日本語学習者による日本語・母語対照データベース』(http://contr-db.ninjal.ac.jp
※「作文対訳DB」と「発話対照DB」が使えます。どちらも日本語学習者が同一の課題のもとに日本語と自分の母語で書いたり語ったりしたデータを集めています。

現在、構築中のコーパス(順次公開予定):
『日本語非母語話者の読解コーパス』
http://www2.ninjal.ac.jp/jsl-rikai/dokkai/corpusdata.html
※日本語学習者の日本語読解過程の発話を文字化し、日本語に訳したデータ
I-JASInternational Corpus of Japanese As a Second language)』
https://ninjal-sakoda.sakura.ne.jp/lsaj/
※異なる12の言語の日本語学習者1000人と日本語母語話者の会話や作文のデータ

5.おわりに

 以上、駆け足ではありましたが、すぐに手に入れられ日本語教育に役立つコーパスと、その使い方の紹介をしました。これまでコーパスを使ったことのない方にぜひ使っていただき、日本語の研究や教材開発、シラバス作成、授業準備など、いろいろな方面で活用していただきたいと思っています。

ページトップへ戻る