日本語教師とコーパス

目次

コーパスとは何?

コーパス(corpus)とは電子化された大規模な言語資源のことです。もう少しわかりやすくいうと、コンピュータで検索可能なテキストをたくさん集めたものがコーパスです。その意味では、インターネットの電子図書館である「青空文庫」や、新聞記事のアーカイブもコーパスですが、本格的なコーパスでは、検索結果をより効果的に利用できるようにさまざまな工夫が施されています。

 

どのような工夫かというと、まず収集するテキストに関するものです。コーパスに含めるテクストの種類が多様であればあるほど、検索結果は偏りの少ない一般的なものとなるでしょう。コーパスにはさまざまなものがありますが、このようにテキストをバランスよく収集したコーパスを「均衡コーパス」と呼びます。

 

また、テキスト自体にも工夫が施されています。何も手が加えられていない「プレーン」な状態のテクストに、区切り・品詞・活用・意味といった情報をタグづけすることで、検索結果の精度が格段に向上します。テクストがどのような語からなり、その語がどのような品詞・活用であるかを分析することを「形態素解析」といいます。そして、形態素解析にもとづき、語(形態素)にタグ付けすることをアノテーションと呼びます。

コーパスにはどんなものがある?

英語コーパスを用いた研究はすでに 1960 年代より始まっていましたが、日本語のコーパス構築と、その利用が本格的に始まったのは 1990 年代以降とのことです。そして、この 30 年の間に、コーパスを用いた言語研究は、コンピュータの普及と発展にともなって急速に発展しました。現代の日本語教育においては、コーパスを活用するかどうかはさておき、コーパスは知っておくべき重要事項のひとつです。

 

コーパスにはいくつかの種類がありますが、日本語教師にとって関わりが深いのは、「汎用コーパス」と「学習者コーパス」です。

汎用コーパスとは

「汎用コーパス」とは資料を広範囲に偏りなく収集した均衡コーパスであり、ある言語の実態を知るのにもっとも適しています。汎用コーパスは、書き言葉を対象としたものか、話し言葉を対象としたものかに分けることができますが、一般的には書き言葉コーパスのほうが規模が大きく、現在では1億語を超えるのが普通です。話し言葉コーパスは、音声資料をコーパス化しなくてはならないため、書き言葉コーパスよりも多くの労力を必要とします。

 

日本語の汎用コーパスには、『現代日本語書き言葉均衡コーパス』(BCCWJ)があります。国立国語研究所の概要では次のように記されています。

「現代日本語の書き言葉の全体像を把握するために構築したコーパスであり、現在、日本語について入手可能な唯一の均衡コーパスです。書籍全般、雑誌全般、新聞、白書、ブログ、 ネット掲示板、教科書、法律などのジャンルにまたがって1億430万語のデータを格納しており、各ジャンルについて無作為にサンプルを抽出しています。」

(https://clrd.ninjal.ac.jp/bccwj/、2023 年 8 月 22 日閲覧)。

 

BCCWJ はオンラインで無償で使用することができ、登録不要で使用できる「小納言」と登録が必要な「中納言」があります。「中納言」は形態素解析にもとづいて検索できるため、「小納言」よりも正確で詳細な検索を行うことができます。

学習者コーパスとは

「学習者コーパス」とは、学習者の作文や発話を大量に収集しコーパス化したものです。学習者がどのような誤用をしやすいか、どんな表現・言語形式を多用するか、あるいはあまり使用しないか、ある言語の母語話者に特徴的な誤用は何かなどの、情報を提供してくれます。日本語の学習者コーパスにはさまざまなものがありますが、ここでは中国語話者と韓国語話者の日本語学習者の発話をコーパス化した『中国語・韓国語母語の日本語学習者縦断発話コーパス』(C-JAS)と『多言語母語の日本語学習者横断コーパス』(I-JAS、日本を含む 20 の国と地域で、異なる 12 言語を母語とする日本語学習者 1000 人の話し言葉および書き言葉をコーパス化)の 2 種を挙げます。いずれも日本語教師にとって有用な情報源です。

 

BCCWJ と C-JAS、I-JASは、国立国語研究所の「中納言・KOTONOHAで検索可能なコーパスリスト」に含まれており、「中納言」に登録することで、複数のコーパスをまとめて検索することも可能です(詳しくはこちら )。

形態祖要素解析とは

コーパスの利用のためには、形態素解析の知識が不可欠です。自分の検索したい文・句・語の形態素情報を得るためには『web茶まめ』が有用です。

 

さて、コーパスの活用についてひとつ付け加えると、コーパスを丸ごと学習することで、コンピュータは自然言語(人間の言語)を処理し、テキストを生み出すことができるようになります。この技術が用いられているのが、現在、話題を呼んでいる ChatGPT などの生成 AI です。

 

コーパスを使うと何が分かる?

コーパスは言語に関する情報の宝庫です。特定の語が、どれくらいの頻度で出現するかはもちろんのこと、どのような環境(前後関係など)に現れるかもわかります。また、ある分野における基本語彙を選定したり、よく使われる文型を抽出したり、授業で使えそうな文例を探したりするのにも役立ちます。

 

ここでは、コロケーションを例として取り上げます。コロケーションとは、ある語が共起しやすい語のことです。たとえば「写真」だったら「破る」よりも「撮る」のほうが共起しやすいのは、意味的にも明らかです。

 

しかしながら、「映画」に対して「見る」と「視聴する」、つまり「映画を見る」と「映画を視聴する」の場合はどうでしょうか。「映画を見る」は文句なく正しいですが、「映画を視聴する」は少し考えなくてはなりません。意味的には間違っているとは言えませんが、あまり聞いたことのない組み合わせです。このようなとき、コーパスが非常に有用です。

 

BCCWJ で簡単に検索してみると「映画を」の直後に「見る・観る・みる」が出てくる例はありましたが、「視聴する」が直後に続く例はありませんでした。とすると「映画を視聴する」は一般的な組み合わせではなさそうです。したがって学習者が「映画を視聴する」と書いてきた場合、「見る」に訂正したほうがいいでしょう(ですが、驚くべきことに、「映画を視聴する」という表現はウェブ検索すると出てきます。どうやら「ネット配信で映画を見る」という意味で用いられているようです。ちなみに、ウエブ全体をコーパスとして活用することを Web as corpus というそうです)。

コーパス関連ワード

さて、日本語教育分野で、コーパスに関連する用語をいくつか見ていきましょう。

 

「コーパス言語学」:コーパスを活用した言語学。コーパスを従来型の研究に役立てる場合と、コーパスならではの新たな研究を行う場合の2つのタイプがあります。

 

「著作権」:多くのコーパスで小説・記事などの作品を含みます。これらの著作権が、コーパス公開のさいに問題となることがあります。

 

「基本語彙」:語彙調査にもとづいて、客観的に選ばれた使用頻度の高い語彙。調査にさいしてコーパスを活用するとより精度が高まります。

 

「基礎語彙」:日常生活や特定の分野での活動に最低限必要な語彙として主観的に選ばれた語彙。「ビジネスの基礎語彙」「大学生活の基礎語彙」など。.

 

まとめ

今回はコーパスについて、それがどんなものか、どんな種類があるのか、どんな使い方があるのか、について説明しました。日本語教育において、コーパスは非常に有用です。ぜひとも「小納言」をご自分で試してみください。また、コーパスを日本語教育に応用した論文もたくさんあるので、ぜひご覧になってください。

参考文献

荒川洋平『日本語教育のスタートライン』(スリーエーネットワーク、2016)

庵功雄『新しい日本語学入門』(スリーエーネットワーク、2012)

斎藤純男他編『明解言語学辞典』(三省堂、2015)

砂川有里子「日本語教育へのコーパスの活用に向けて」(『日本語教育』150, 4-18, 2011)

寺嶋弘道「日本語教育におけるコーパスの応用-データ駆動型学習とその実践方法の考察-」(『Polyglossia』20, 91-103, 2011)

東京中央日本語学院 日本語教師養成講座教材チーム『日本語講師養成講座 日本語教師のための理論 社会・心理』(東京中央日本語学院、2019)

森山卓郎他編『明解日本語学辞典』(三省堂、2020)

山崎誠「日本語コーパスの紹介とその利用」(『ヨーロッパ日本語教育』23, 222-232, 2018)

この記事の筆者
熊切先生の写真
日本語教師養成講座 非常勤講師
熊切拓
いろいろな言語に興味をもち、勉強をはじめる。日本語教師養成講座を担当したのをきっかけに日本語教育にも関わるように。日本語学校や大学で、初級から上級の指導、JLPT 対策講座、クラス担任などを経験。現在、言語学を勉強中。

日本語教育の基本! 「イ形容詞」と「ナ形容詞」はどう違う?

「富士山がキレクテ感動しました。」 日本語教師ならば、この発話のおかしな理由をすぐに説明してくれることでしょう。この記事では、日本語教育の基本中の基本ともいえる「イ形容詞」と「ナ形容詞」の違いについて説明します。

日本語プライベートレッスンの教え方と注意点

最近はコロナウィルスの影響もあり、オンライン授業やプライベートレッスンの需要が増えてきているようです。この記事ではプライベートレッスンの教え方と注意点を紹介します。

学習者のレディネス分析と日本文化浸透度

学生一人ひとりが日本に対してどの程度の知識やどういった印象を持っているのかを知っておくのは、広い意味でのレディネス分析ともいえます。

人気講師や日本語教育のエキスパートがお届けするTCJ限定のイベントです。日本語教師に興味がある方はどなたでもご参加いただけます。

授業見学&カウンセリングでTCJクオリティーをご体験ください。オンライン対応も可能です。

デジタルパンフレットを無料で閲覧いただけます。