Word Level Checker (Online Ver. 2.0)

「リーダビリティ」の測定について

現バージョンの WLC には新たに「リーダビリティ」測定機能が追加されています。リーダビリティの指標およびその算出方法にはさまざまなものがありますが、現バージョンでは ARI (Automated Readability Index) および CLI (Coleman-Liau Index) と呼ばれる2つの公式を採用しています。このページでは染谷 (2009) から ARI および CLI によるリーダビリティ測定に関連する箇所(第3節以下)を引用して解説の代わりとします。

出典:染谷泰正 (2009) 「オンライン版「英文語彙難易度解析プログラム」(Word Level Checker) の概要とその応用可能性について」(全文 PDF

3.   「リーダビリティ」の測定
[...] 現在、リーダビリティの指標およびその算出方法として、例えば Flesch Readability Score (aka, Flesch Reading Ease Score), Flesch-Kincaid Grade Level, Gunning’s Fog Index, SMOG Formula, FORECAST Readability Formula, Powers-Summer-Kearl Formula, Fry Index (aka, Fry Chart) などさまざまなものが提案されているが (Zakaluk and Samuels, 1988; Micro Power & Light Co., N.D.)、いずれも対象テクストの語数、センテンス数、およびシラブル(音節)数を基本にリーダビリティを算出するという方法をとっている。例えば、このうちもっともよく知られ、かつ信頼性も高いとされている Flesch Readability Score は以下の公式で算出される。

206.835−(1.015×α)−(84.6×β)
where,
α = average number of words per sentence
β = average number of syllables per word
 計算結果は 0〜100 までのスケールで示され、60〜70 を標準 (Standard) として、得点が高くなるほど「読みやすい」テクストであることを示し、反対に得点が低くなるほど難しいテクストであることを示す。Flesch-Kincaid Grade Level(以下、FKG)は、Flesch Readability Score(以下、Flesch Score)を米国の学年レベルに対応させたもので、次の公式で算出される。
(0.39×α)+(11.8×β)−15.59
where,
α = average number of words per sentence
β = average number of syllables per word
 なお、FKG の理論的な最低値は -3.4 であるが、これはすべてのセンテンスが単一音節の単語1語から構成されているケースを指し、現実にはほぼあり得ない値である。Taylor (2008) によれば、通常のいわゆる "authentic" な(意図的に加工されていない)英文の場合、FKG の値はほぼ 5.5 から16.3 の範囲に収まるのが普通であるとされている。
 表1に、Flesch Readability Score の評価と、各スコアレンジを米国の学年レベルに対応させた一覧表を示す。「学年レベル」とは、それぞれの評価レベルにあるテクストを読むために最低限必要とされる教育レベルを米国式の Grade Levelで示したものである。ただし、Grade Level は多少の幅をもって解釈されることが多く、例えば米国の Reference Software International 社がかつて販売していた Grammatik IV というリーダビリティ計測用ソフトウェアでは、FKG = 8 という判定は、ほぼGrade 6-10 程度の教育レベルに対応する ("requires 6-10 years of schooling") とされている [8] 。なお、当然のことながら、これは英語の母語話者を対象にしたものである。

 FKG と同じく、当該のテクストを読むために最低限必要とされる米国の学年レベルとしてリーダビリティを算出する公式のひとつにGunning's Fog Index がある。これは、米国のRobert Gunningが1952年に発表したリーダビリティ算出法で、0.4×(α+β)という公式で算出される。このうちαは「文当たりの平均語数」を、βは「3音節またはそれ以上の音節を持つ単語の総語数に対する比率」をそれぞれ示す。この計算式でも明らかなとおり、Fog Index の特徴は音節数が3またはそれ以上の単語を "big word" とし、その比率をリーダビリティ判定の重要な要素とした点にある。なお、Fog Index は FKG よりいくらか高めになることが知られている(染谷1986/1994, Vol. 3, p. 150)。
 本稿では、こうしたさまざまな指標についてひとつひとつ詳しく取り上げることはしないが、既存のリーダビリティ公式を Word Level Checker のようなオンライン上のシステムで採用する際の一番の問題点は、いかにして「音節数」を正確にカウントするかという点にある。コンピュータに入力データの音節数を正しくカウントさせるためには、まずはすべての英単語の(あるいは一般化規則に当てはまらない例外的なものについて網羅的にその)音節数を手動でカウントし、これを一覧表にしたデータベースを作成する必要がある。単純に母音の数をカウントするという方法では、仮にいくつかの例外規則を盛り込んだとしても、正確な測定は望めない[9]。このようなリストの作成は時間と労力さえかければ可能な作業ではあるが、一教員が授業の合間を縫ってコツコツ作成するというレベルの作業ではない。外注すればいいのだが、その予算はない――ということで、結局、2006年の段階では、リーダビリティの自動測定機能の追加は見送らざるを得ないということになった。

3.1  「音節数」に依拠しないリーダビリティの計測法: ARI とCLI
 音節数のカウントということがネックになっているとすれば、音節数に基づかないリーダビリティの計測方法を採用すればよいということになる。実は、その後の調査で、そのような方法が少なくとも2つ、すでに提案されていることがわかった。ARI (Automated Readability Index) および CLI (Coleman-Liau Index) と呼ばれるものである。
  ARI は、もともと米国空軍内での文書(とくに技術文書やマニュアル)の作成・評価を支援する目的で1960年代後半に提案されたもので、最初からコンピュータでの自動処理を念頭に入れて考え出されたものである。ARIの算出式は以下のとおりである (Smith and Senter, 1967)。

ARI = (4.71×CPW) + (0.5×WPS) −21.43
where,
CPW = average number of characters per word (= total number of C divided by that of W)
WPS = average number of words per sentence (=Total number of W divided by that of S)
 CLIは、Meri Coleman と T. L. Liau が1975年に考案したリーダビリティ測定法で、上記の ARI と同じく、コンピュータでの自動処理を前提に、他の大多数のリーダビリティ・フォーミュラと異なり、「音節数」に拠らずに対象テクストのリーダビリティを測定するものである (Coleman and Liau, 1975)。CLI の算出式は以下のとおりである。[10]
CLI = (5.89×CPW) − (0.3× (100÷WPS)) −15.8
where,
CPW = average number of characters per word (= total number of C divided by that of W)
WPS = average number of words per sentence (=Total number of W divided by that of S)
 ARI と CLI の計算結果は、いずれも FKG と同じく米国の学年レベルとして算出される。Taylor (2008) によれば、ARI は FKG および CLI よりやや高めに算出される傾向があり、また、技術的な文書を対象にした場合、CLI は一般に FKG や ARI よりも低くなるとされている。
 以上、音節数のカウントという手順を経ずにリーダビリティを測定する方法があることを確認した。ARI とCLIはいずれの場合もテクストデータの形態的な指標、つまり(スペースで区切られた)単語の数とこれを構成する文字の数、および(特定の記号によって明示的に区切られた)文の数のみによってリーダビリティを測定する方法であり、コンピュータによる自動処理にもっとも適した手法であると考えられる。問題は、これらの方法がどの程度信頼性があるかということになる。

3.2  FKG, ARI, CLI の相関関係
 本節では、FKGを基準に、ARI および CLI との相関関係について検討する。前述のとおり、FKG(およびその前提となる Flesch Score)はリーダビリティ評価のスタンダードとして定評があるものであり、これとの相関関係が有意に高ければ、ARI およびCLIの信頼性も高いことが証明されることになる。調査に当たって、FKG の算出は前述の Grammatic IV という市販のソフトウェアに拠り[11]、ARI および CLI の算出については自作のコンピュータプログラムを使った。なお、最新版のWLC に実装されているプログラムは Java 言語で記述されているが、これに先立って、簡易言語 AWK で実験用プログラムを作成した。プログラムのアルゴリズムは全く同じものであり、どちらを使っても得られる結果は同じである。

文の定義と文の数のカウント
 前記の実験用プログラムでは、「文」の数をできるだけ正確かつ統一的な方法でカウントするために、以下のようなコントロールをプログラム中に組み込んだ。

  • 「文」の定義=基本的には . ! ? のいずれかで終わっている文字列を「文」とする。
  • 箇条書きが含まれている場合、行頭の「英数字+ピリオド」(/^[A-Za-z0-9]\. /という正規表現で表される文字列)を文末記号として認識しないように回避。
  • 文中・文尾のエリプシス記号(3点ドット)を文末記号として認識しないように回避。
  • 文末で2重に使われた感嘆符と疑問符は1回のみ文末記号として認識。
  • 間にピリオドを挟む2〜5文字の略語、およびピリオドのあとに(不正に)スペースの入った2〜5文字までの略語は、適切に「略語」として認識されるようにする(略語ピリオドを文末記号と誤認識するのを回避)。
  • 引用符で囲まれた文字列が前記の文末記号のいずれかで終わっている場合、地の文と分けてカウントする。
  • コロンの後が「スペース+大文字」で始まっている場合、コロンを文末記号とする(小文字の場合は文を分けない)
  • メールアドレスと URL は便宜上それぞれ4文字の1語扱い(MAIL と HTTP) として処理。
  なお、上述のとおり、ピリオドで区切られた略語が文中に置かれているケースについては略語ピリオドが文末記号と誤認識されることを回避するようにしたが、文末位置に略語が置かれているケース――例えば The organization is known as the [N.S.A. This] is... のような文では、[ ] の部分が His name is [D.H. Smith] and he is... のように文中の略語要素として使われているもの(「大文字+ピリオド+スペース+大文字」という連続の文字列)と形態上の区別が付けられない。同じく、文中の Mr., Mrs., Ref., Prof., Assoc. といった形式の略語は通常文の文末と同じ形式になることがあるため、単純なパターンマッチングによる処理ができない。前者の場合は適当な回避方法がないが[12]、後者についてはこのようなタイプの略語を網羅的にリストアップし、ひとつずつつぶしていく方法を採用した。現在のプログラムにはこの形式の主な略語が124例、登録されている。完全とはいえないまでも、実用的には必要十分な数であると考えられる。

テスト用の英文サンプルについて
 テスト用の英文サンプルには、(1) 筆者の勤務校で実際に使用している英文講読用教材から抜粋した英文エッセイ 4本、(2) リーダビリティ評価用に筆者が授業で使用しているビジネスレターの例文7本、さらに (3) リファレンス用のテクストとして米国大統領の就任演説を2つ使用した。米国大統領の就任演説は、部分的にやや難かしい箇所が出てくるものの、もともと一般国民向けに作成されたもので、英語国民にとってごく標準的な(かつ、一定の格調を確保した)英文であることから、日本の大学生向けの英文講読用テクストの "Fitness" を測る対照テクストとして格好の素材であると判断した。なお、(1)および (2) については、主観的評価による難易度判定を、「易しめ (easy)」「普通 (average)」「やや難 (difficult)」「難 (very difficult) 」の4段階にわたって加えた [13]。(3) はこのうちの「普通 (average)」という判断であるが、これは日本の大学生にとっての「到達目標レベル (target level)」と考えてもよい。

テストサンプルの分析結果
  表2に、各サンプルのリーダビリティ評価の結果を示す。なお、注11 で述べたとおり、FKG のスコアについては少数点以下が省略されている。
 この結果を見るかぎり、FKG, ARI, CLI のスコアはほぼ一定の傾向を示しているように思われる。すなわち、「易しめ (easy)」と判断されたテクストのスコアは 4.3 から 8.8 (STD = 0.4 〜 0.9) と比較的低く、「普通 (average)」が 8.0 から 11.9 (STD = 0.10 〜1.16)、「やや難 (difficult)」および「難 (very difficult) 」と判断された4つのテクストは、いずれも 12.1 から 15.7 (STD = 0.23 〜0.95) と高い数値を示していることがわかる。各スコアの標準編差の平均は 0.56 (STD = 0.35) で、数値が比較的まとまっていることを示している。これは、図3のレーダーチャートを見ても明らかである。

  なお、一般に、テクスト量が少ないものについては評価がやや不安定になる傾向があるが、本調査でもビジネスレターの例文(とくにBL-23, BL-19, BL-13, BL-08)についてその傾向が見られる。したがって、実際のテクストの分析に当たっては、できるだけ1000語程度またはそれ以上のまとまった量を対象にするのが望ましい。ちなみに、Speech 1 は総語数 6803語、Speech 2 は 5283 語、Sample 1〜Sample 4 についてはそれぞれ 933語、932語、1128語、513語となっている。
 次ページ表3 に、FKG, ARI, CLI の3つのリーダビリティ指標間の相関係数行列を示す。一般に、相関係数 r は 0.8≦| r | のときに「強い相関あり」と判断されるが、表3を見ると、FKG-ARI 間の相関係数が 0.9775、FKG-CLI 間の相関係数が 0.9539、ARI-CLI 間の相関係数が 0.9484と、いずれも強度の相関関係を示していることがわかる。

  図4 は、3つの指標によるリーダビリティ指数 (Grade Level) の散布図に、回帰直線(線形近似)を当てはめたものである。これを見ると、FKG を基準とした場合、ARI(点線)とCLI(一点破線)はいずれも、われわれが「到達目標レベル」とした Grade Level 10〜11 あたりを境界に、スコアの差がより強調されて(低いものはより低く、高いものはより高く)算出される傾向があることが伺える。また、ARI はもともと技術文書のリーダビリティを計測することを目的にしているため、子供向けのごくやさしい文章や短いセンテンスからなる会話テクスト(例えば FKG で 2 前後またはそれ以下のもの)を対象にした場合、不当に低い評価が出る傾向がある(→たとえば次のサイト参照)。スコアの評価に当たっては、前述のテクスト量の問題とともに、この点も考慮に入れるべきであろう。


[参考資料] ARI/CLI スコアの評価の目安

4.  WLC の応用可能性と今後の課題
  前節では、FKG, ARI, CLI の3つのリーダビリティ指標間に強度の相関関係があることを確認した。結論としては、WLC に新たに追加されたARIとCLIはリーダビリティ評価の指標として十分に実用に耐えるものであるということになる。
 ただし、当然のことながら、これらの指標によるリーダビリティ評価は(他の指標と同じように)単にテクストの表面的・形態的な特徴のみによってリーダビリティを判断しているため、たとえば A green boy is a dog and cat in the house of fire. のような全く意味を成さない文字列やFour king sons had the. のような非文でも、「読みやすい文」(!) という評価になる。反対に、長めの地名や人名が多く出てくる文章や、カンマやセミコロン等で付加的な語句を重層的につなげたものは、仮に文章としてはごく簡単に理解できるものであっても、リーダビリティ評価は低くなる。したがって、機械的な適用は避け、あくまでも参考データとして利用すべきものである [14] 。ただし、本稿で紹介したような語彙難易度評価やリーダビリティ評価は、その限界を自覚しつつ適切に利用すれば、教育研究のさまざまな側面で大いに役に立てることができるものである。以下、本稿のまとめとして、WLC の教育研究分野への応用可能性について若干の提言を行い、最後に現在の WLC の問題点と今後の課題について述べる。

4.1  WLC の教育研究分野への応用について
 WLC の応用分野として、まず第1に挙げられるのは、そもそもの開発の契機となった「英文講読」の授業への応用であろう。このほかに、「英文ライティング」分野への応用、および入試問題の作成と品質管理への応用が考えられる。

4.1.1  「英文講読」授業への応用
 いわゆる英語科目としての「英文講読」の授業は、通常、どの大学でも非常勤講師が担当することが多い。教材の選定や指導内容についても、大学側でごく大雑把な方針を示すことはあっても、一般には「教育実践不介入」の原則から、具体的なことについてはすべて講師任せにしているのが普通である。もちろん、すべてうまくいっている場合はこれでいいわけだが、実際には、学生のレベルや授業の設置意図を無視した恣意的な授業や、講師の趣味に偏りすぎた内容の教材を使っている例がないわけではない。毎年の学生による授業評価にもそのようなコメントが散見する。
 WLCは、そのような背景から、各教員による自己チェックための支援ツールのひとつとして開発されたものである。もちろん、この試みは非常勤の先生方の教育実践に介入しようというものではなく、あくまでも各教員が自らの授業で使う教材の語彙的な難易度やリーダビリティを客観的に測定し、その結果をよりよい授業の運営に役立ててもらおうというものに過ぎない。したがって、筆者の勤務校においてもその使用・不使用はまったく自由であり、何ら拘束力を持つものではない。この点は筆者の勤務校で毎年行われている講師打ち合わせ会においても繰り返し強調されていることである。なお、この「打ち合わせ会」では、WLC の利用法について詳しく解説するとともに、講師の方から提供される教材サンプルの分析例(「テクストプロファイリング・レポート」)を作成・配布しているが、参考までにその抜粋を巻末資料に示す(注:本解説では省略)。
 この巻末資料に挙げた例は、表2 の Sample 4 について、より詳細に分析したものであるが、テクストの "Fitness" を測定するための「自己診断ツール」として WLCがどのように役に立つをよく示しているものと思われる。なお、このレポートを作成した2007年度の時点ではリーダビリティ評価は含まれていないが、ここでは参考までにARI とCLIによる評価、および参考値としてFKG のスコアを追加した。
 このレポートにあるとおり、Sample 4のテクストは語彙の難易度 (4000語レンジの語彙のカバー率 = 82.59%、同推定未習語率 = 17.41%)、およびリーダビリティ評価 (FKG = 14; ARI = 15.0; CLI = 14.7) のいずれの点でも突出した難易度のテクストであり、日本の平均的な大学生を対象にした通常の「英文講読」用の教材としては難易度が高すぎると考えられる。したがって、分析者の提言としては、「同一の内容を扱った、より難易度の低いテクスト(Grade Level 評価で最大10〜11程度のもの)を選択することが望ましい」としている。もちろん、その上で、あくまでもこの教材を使用するか、あるいは同一内容のより難易度の低いものに換えるかは担当講師の判断に任せることになる。
 もちろん、難易度が高くても、教育的な観点からその教材を使うのが最善であるということも十分にあり得る。ただし、その場合には、本稿の第2章3節で述べたとおり、当該テクストの学習を始めるに当たって、あるいはこれに並行して、一定のレベル以上の難易度を持つ語句ついて講師が口頭で簡単に解説したり、「語彙リスト」を作成して学生に配布し、pre-reading ないしpost-reading activity の材料として活用するなどの工夫が必要になるだろう。すでに述べたとおり、WLCにはこうした使い方を支援するための仕組みが用意されている。

4.1.2  「英文ライティング」分野への応用
 2つ目の応用分野として「英文ライティング」分野への応用が考えられる。通例、学生の書く英文(エッセイやジャーナルなど、一定の量があるもの)は、自分がすでに知っていて習熟度の高い語彙の範囲内で書くため、語彙的なバラエティに欠けることが多いが、WLCを使って学生の書いた英文データを分析し、併せて難易度付きの語彙リストを作成することで、その学習者のL2レキシコンのおそよの幅と多様性、あるいは語彙使用における傾向といったものを把握することができる[15]。こうして得られたデータをもとに、例えば同じ単語を繰り返し使っていないか、別のより適切な表現に言い換えることが可能か――可能なら、どういう選択肢があるか等々といった点について、より具体的かつ個別的な指導をすることで、よりいっそうの教育効果が期待できると考えられる。また、学期開始時点と学期終了時の語彙使用を比較することで、学生個人およびクラス全体の長期に亘る変化の有無を観察することもできる。こうして得られたデータや知見は、教師にとって貴重な教育的データとなることは間違いのないところであろう。
 もちろん、語彙だけでなく、学生の書いた英文のリーダビリティを測定し、これをライティングの指導に役立てることもできる。例えば、文章をだらだらと続けていないか、こま切れ的なセンテンスになっていないかといった点に学生の意識を向けさせるだけでも、文章の質を大きく向上させることができる[16]。その上で、文章の内容的なことや論理性、結束性といった側面については、これまでどおり教師が個別に指導を行っていけばよい。
 ただし、こうしたことを円滑かつ効率的に行うためには、学生が提出する英作文データをすべて電子データとして収集・保存しておく必要がある。もっとも手軽な方法としては、エッセイなどの提出はすべて電子メールで行い、ジャーナルの場合はインターネット上に掲示板(BBS)やブログを立ち上げ、すべてこれに書き込ませるようにすることで、とりあえず、すべてのデータを電子データとして取り出すことが可能になる。個々の教員が自分の担当するクラスのみを対象にする場合はこれで十分であるが、ひとつの学科や学部、あるいは全学を対象にする場合はこのような原始的な方法の限界は明らかであり、本来は、学生の作成した英文データを統一的な方法で収集・保存し、これを「コーパス」として利用できるようなシステムを用意しておくべきであろう。筆者の勤務校においては今のところそのようなシステムがないため、毎年の授業で発生する貴重なデータが使い捨て状態になっているが、よりよい教育実践を支援するために、いずれそのようなシステムを立ち上げるべきであると考える。この点で、早稲田大学国際教養学部の "The SILS Learner Corpus of English" と呼ばれる教育研究実践例 (Muehleisen, 2007) は大いに参考になるところである。

4.1.3  入試問題の作成と品質管理への応用
 WLCのもうひとつの応用分野として筆者がとくに関心を持っているものに、大学入試問題の作成およびその品質管理への応用がある。大学が独自の入試問題を作成する場合、通常は当該学部・学科の教員が交代でその任に当たっているため、出題形式は一定でも問題の難易度が年度によってかなり異なってくることがある。また、入試問題にしばしば高校生の力をはるかに超えた難問が出されることがあるのは周知の事実である。
 中條・長谷川 (2004) は2002年度に実施された大学入試のうち、筆者の勤務校である青山学院大学を含む合計26大学40学部の入試問題における英文読解問題の難易度を分析している。分析のパラメタは、@入試問題に対する「中高英語教科書語彙」のカバー率と、A入試問題のリーダビリティ(Grade Level による評価)の2点である。@については、現行の中学校および高等学校教科書に使用されている語彙を網羅的に収集したコーパスを作成した。高校用の教科書については高等学校修了時の語彙レベルの上限に相当する例として、難易度の高い教科書シリーズを採用している。作成された「中高英語教科書コーパス」の異語数は3,098語(延べ語数は43,772語)であった。JACET 8000 との相関については触れられていないが、JACET 8000のうちの3000語レベルまでの基礎語彙が収録されているものと考えてよいであろう[17]。リーダビリティについては本稿第3章冒頭で言及した各種リーダビリティ指標を含む9つの指標のうち、大学入試問題のリーダビリティ判定にもっとも適していると判断された Flesch-Kincaid Grade Level, FORCAST Formula, Fry Index の3指標の平均を用いている。
 中條・長谷川(前掲書)ではその結果を一覧表にして提示しているが、青山学院大学(学部学科名は不詳)については、当該入試問題に対する中高教科書語彙のカバー率が88% (全体平均90.9%)、リーダビリティは13.1 (全体平均9.5) となっている。ちなみに、同年のセンター入試の英文読解問題の中高教科書語彙カバー率は 94.2% (1993-2002年の平均は94.7%)、リーダビリティは8.4 (同平均6.2) である。
 リーダビリティが13.1というのは全40学部のうち上位3番目の難易度である[18] 。もちろん大学の「格」と入試問題の難易度とは何の関係もない。これに対して、調査対象となった40例の約半数に相当する23学部がリーダビリティで 8〜10 あたりに集中している。これは、高校生を対象とした入試問題としてごく適切な判断というべきであろう。リーダビリティ13というのは、大学入学時ではなく、卒業時に(かつ、一部の優秀な学生において)到達していることが期待されるレベルである。中條・長谷川もその結論で述べているとおり、大学入試問題はその社会的な影響の大きさを十分に考慮に入れた上で、「受験者の習熟度にふさわしいレベルの英文」を出題すべきであり、出題者としてはその点に十分に配慮して作問に当たるべきであろう。
 もちろん、入試問題にはそれぞれの作問者の出題意図があり、統計的な指標のみでその是非を論ずることはできないが、受験者の習熟度に応じたレベルの英文においてその出題意図が表現されているほうが好ましいことは言うまでもない。入試問題を作成するに当たって、一種のスクリーニング装置として WLC を活用することで、問題の難易度が必要以上に高くなりすぎないように調整することができる。例えば、JACET 8000 のうち、4000語レベルを超えるもの(ただし、これはそれぞれの大学の求めるレベル規定による)については問題末尾に語注を加えたり、設問とは直接関係のない箇所については一定のリーダビリティ内(例えば10から11)に収まるように文章を調整するなどの客観的な基準を設けた上で問題の調整に当たることで、年度ごとのばらつきや出題者ごとの判断の揺れを最小限に抑えることができる。その上で、難易度の高い文や語彙を意図的に一部残しておくことは「試験」という性格上、当然、許容されてしかるべきものであろう。

4.2  WLC の問題点および今後の課題
 本稿では、WLC の機能について簡単に解説した上で、現行バージョンに新たに追加されたARI およびCLIがいずれもリーダビリティ指標として一定の制限内で十分に実用に耐えるものであることを検証し、併せてその応用可能性について議論した。
 一定の制限というのは、リーダビリティ評価そのものが対象テクストの表層的な特徴のみによって文章の読みやすさを判断するものであるという限界に加え、現在の WLC にはある条件下において不適切な語分割や文分割をする可能性があるというパーシング上の問題が残っていることを指す。また、現時点では JACET 8000 が使えないという問題もあり、これも WLC そのものの有用性を大きく損なうものになっている。このうちパーシング上の問題については今後改良の余地があるが、現時点では分析サンプルの語数を増やすことで問題の影響を最小限に抑えることができる。本文中でも述べたとおり、分析サンプルのサイズは大きいほうが安定した結果を得られるため、できるだけ1000語以上のサンプルを使うことを勧めたい。
 なお、今後の課題として、ベース辞書への品詞タグ情報付与をできるだけ早い時期に完了させたいと考えている。現時点では JACET 8000 と WLC ベース辞書(見出し語数約3万5000語)については収録されているすべての単語について作業が完了しているが、SVL 12000 への品詞タグ付けが未完了になっている。この作業が終われば、単なる語彙リストのほかに、分析対象テクストのそれぞれについて品詞ごとの頻度情報やコリゲーション情報(colligation=品詞間の共起・連鎖関係)を必要に応じて出力することが可能になる。また、リーダビリティ評価についても、既存のほとんどのリーダビリティ指標が音節数を主要なパラメタのひとつとして取り上げていることから、音節数をコンピュータで正確に自動カウントするためのアルゴリズムについても検討を重ね、将来的にはARIおよび CLI 以外の指標も加えて複数の指標間の比較ができるようにしたい。これが2つ目の課題である。次回のバージョンアップの際には、是非ともこれらの課題が実現できる状況になっていることを期待したい。

(以下、「巻末資料」省略)


【注】(引用部分のみ)
[8] Flesch Reading Ease Score, Flesch-Kincaid Grade Level および Gunning's Fog Index の解説と計算式は染谷 (1986/1994, Vol. 3, pp. 148-153 ) から引用した。表1 も同書から一部変更して転載したものである。なお、Flesch Reading Ease Score と Flesch-Kincaid Grade Level (FGK) はMS Word の文章校正機能の一部として組み込まれており、以下の手順で使用することができる。
1. MS Word のメニューから [ツール]→[オプション] を選択
2. [スペルチェックと文章校正] タブをクリックし、「文章校正」のところにある「文章の読みやすさを評価する」にチェックマークを入れる。
3. MS Word に分析対象の文章を貼り付け、メニューから [ツール]→[文章校正] を選択。
4. 「読みやすさの評価」結果が別ウィンドウに表示される。
 結果表示ウィンドウには、Flesch Score と FKG とともに、統計量として単語数、文字数、段落数、文の数、文当たりの語数、単語当たりの文字数等が表示される。ただし、「音節数」は表示されないため、評価結果を検証することができない(同じテクストを異なったソフトウェアで評価した場合、同一のリーダビリティ指標を使っても必ずしも同じ結果にならないことがあるが、これは主として音節数のカウント方法とセンテンス分けのためのアルゴリズムが異なるためであると思われる)。
 このほか、Flesch Score と FKG の算出に特化したオープンソースのフリーウェアとして Flesh 2.0 があり、次のサイトからダウンロードすることができる (→ http://flesh.sourceforge.net/)。こちらは語数、文数のほかに音節数も表示されるため、評価結果を検証することができるようになっている。なお、Flesh 2.0 は Java ベースのプログラムであるため、使用に当たっては別途、次のサイトから Java をインストールする必要がある (→http://www.java.com/en/download/manual.jsp)。

[9] 母音の数を基準にした自動処理でも95% 前後の精度は確保できると考えられるが、後述のように文のカウントについてもある程度のエラーを見込む必要があることから、このような方法をとった場合、全体の信頼性が著しく下がってしまう可能性がある。(いくつかのカウント規則を組み込んだ上で例外的な単語を別途リストアップしておけば、十分な精度を持った自動化プログラムが可能だと思われるが、これは今後の課題としたい。)

[10] CLI の算出式にはいくつかのバリエーションがある。この式は Wikipedia (http://en.wikipedia.org/wiki/ Coleman-Liau_Index) および Readability.Info (http://www.readability.info/info.shtml) に掲載されている記述によったもので、いわゆる「簡略版 (simplified version)」とされているものである(ただし、簡略版にも別式がある)。なお、本稿で取り上げた各種公式に用いられている係数の算出プロセスについては現在のところ確実な資料が得られていないが、通例、係数の決定は、ある一定の基準に従って収集されたデータを対象に、リーダビリティに影響すると考えられる各種のテクスト要因(例えば 1 文の平均語数や音節数、文字数など)を独立変数とし、学年レベルを従属変数として重回帰分析を行い、有意であるとして残った変数の係数から最終的な計算式を作成する、という手順を踏むものと考えられる。なお、重回帰分析は複数の独立変数(この場合は各種テクスト要因)からひとつの従属変数(この場合は学年レベル)を予測するための式を作る際に用いる統計手法で、独立変数が未確定の場合はステップワイズ法と呼ばれる手法を使う。

[11] Grammatic IV(および類似のソフトウェア)による評価はいずれも小数点以下を切り上げた整数で示されるため、他の指標との正確な比較ができにくい。また、シラブルのカウント方法を含め、計算の内部プロセスを検証することができない。出来合いのソフトウェアを使う際の大きな問題点のひとつである。比較に当たっては、本来、小数点以下の桁数を揃えるべきであるが、以上のような事情で本稿では FKG のスコアについては小数点以下を割愛した数字をそのまま使うことにする。

[12] ただし、あらかじめ入力テクストを編集する(例えば The organization is known as the NSA. This is... のように、文末記号以外のピリオドを削除する)ことで問題を回避することができる。

[13] (1) はデータを提出していただいた講師の方による主観的評価、(2) は本稿の筆者による判断である。なお、(2) のビジネスレターの例文のリーダビリテイについては、染谷(1986/1994, Vol. 3, Figure 95, p. 151)で詳しく議論している。

[14] 現在のリーダビリティ評価では、対象テクストの内容的な複雑さ(または簡明さ)や論理性、文法性、使用語彙の具体性・抽象性、結束性や一貫性、あるいはディスコースの文化的・政治的・思想的な偏りや特徴、さらに読み手の読解意図や動機といった、本来、テクスト読解に大きな影響を与える質的要素は一切考慮されておらず、機械的に適用すると大きな間違いを犯すことになる。こうしたことは、リーダビリティ評価を採用するに当たって当然の前提ではあるが、ここで改めて確認しておきたい。

[15] 語彙的多様性を測るひとつの指標としてタイプ・トークン比率 (Type-Token Ratio) がある。タイプ・トークン比率は、一般には1000 語単位の標準化比率 (Standardized Type-Token Ratio) で40% 程度が標準的な数値とされている(石川 2004)。

[16] ちなみに、巻末資料にある「テクストプロファイリング・レポート」でとりあげた Sample 4 のテクストの文当たりの平均語数は 23.3 語となっている。これに対して、図2 で分析した Sample 1 の文当たりの平均語数は 16.4 語である。「標準的」な英文の文当たりの平均語数はおよそ 17 語であり(染谷1986/1994, Vol. 1, p. 150)、この点でも Sample 4 の難易度は際立っている(平均が 23.3 語ということは、1文30語を超えるような文が相当数含まれているということを示唆するが、実際、Sample 4 の場合は総文数22のうち5文が1文30語を超える文になっている)。もちろん、文が長くても達意の文章を書くことは可能であるが、学生にライティングの指導をする場合は、1文当たりの平均語数が17語を大きく超えないように指導すべきであろう。なお、指導に当たっては学生が自ら WLC(またはその他のツール)を使って、自分の書いたものを客観的に自己評価・診断できるように導いていくのが望ましい。

[17] なお、当然のことながら受験生はすべての教科書を学習しているわけではないことから、平均的な高校生が卒業までに(少なくとも教室内で)学習する語彙の総数はこの基礎3000語を相当数下回るものと考えられる(→注6参照)。

[18] 問題の総語数も845語(全体平均503語)で全40学部中、上位2番目となっている。総語数がもっとも多かったのは都内M大学の 937語であるが、この場合の中高教科書語彙のカバー率は92.5%、リーダビリティは5.9 であり、長くても易しい英文が出されていることがわかる。青山学院大学の読解問題は他に比較して長いうえに難しいということになる。

【参考文献】
Coleman, M. & Liau, T. L. (1975), " computer readability formula designed for machine scoring," Journal of Applied Psychology, Vol. 60, No. 2, pp. 283-284.
Dale, E., & Chall, J. S. (1948), A Formula for Predicting Readability. Columbus, OH: Ohio State University Bureau of Educational Research.
Flesch, R. (1960), How to Write, Speak, and Think More Effectively. New American Library, New York, NY.
Flesch, R. (1974), The Art of Readable Writing. Harper and Row, New York, NY.
Fry, E.B. (1968), "A Readability Formula That Saves Time," Journal of Reading, 11, 7, pp. 265-271.
Gunning, R. (1952), The technique of clear writing. McGraw-Hill International Book Co,. New York, NY.
Gunning, R. (1968), The Technique of Clear Writing. McGraw-Hill, New York, NY.
Impact Information Plain-Language Services (2004), "Robert Gunning's Fog Readability Formula" in Plain Language At Work Newsletter, 23 March 2004. [Online] http://www.impact-information.com/impactinfo/ newsletter/plwork08.htm
Krashen, S. (1985). The Input Hypothesis: Issues and Implications. Torrance, CA: Laredo Publishing Company, Inc.
Laufer, B. (1989), "What Percentage of Text Lexis Is Essential for Comprehension?" In Lauren, C. and Nordman, M. (Eds.) Special Language: from Humans Thinking to Thinking Machine, Clevedon: Multilingual Matters, pp. 316-323.
Laufer, B. (1992), "How Much Lexis Is Necessary for Reading Comprehension?" In Arnaud and Bejoint (Eds.) Vocabulary and Applied Linguistics, London: Macmillan, pp. 126-132.
Muehleisen, V. (2007), "The SILS Learner Corpus of English." Presentation at the 2007 Summer School of Learner Corpus Research, Centre for English Corpus Linguistics, Universite catholique de Louvain. 10-14 September 2007. [Online] http://www.f.waseda.jp/vicky/learner/index.html
Micro Power & Light Co., (N.D.), Readability Formulas. [Online] http://www.micropowerandlight.com/ rdformulas.html
McLaughlin, G. (1969), "SMOG Grading: A New Readability Formula," Journal of Reading, 12, 8, pp. 639-646.
Nation, I.S.P. (2001), Learning Vocabulary in Another Language. Cambridge: Cambridge University Press.
Smith, E. A. & Senter, R. J. (1967), "Automated Readability Index," AMRL-TR, 66-22. Wright-Patterson AFB, OH: Aerospace Medical Division, The U.S. Army Defense Technical Information Center (DTIC)
Taylor, D. (2008), Readability.Info [Online] http://www.readability.info/info.shtml
Zakaluk, B.L. & Samuels, S.J. (Eds.) (1988), Readability: It's Past, Present, & Future. The International Reading Association, Newark, Delaware.
石川慎一郎 (2004) 「日韓の大学入学試験英語問題に見る構成語彙の特徴――英文テキスト・コーパスの解析に基づく考察」『アジアの英語と英語教育』7, 1-15. 大学英語教育学会中国四国支部 (2004/9/30)
清川英男 (1996) 「リーダビリティ公式とその利用」『現代英語教育』9月号, pp. 31-33. 研究社
酒井志延 (2006) 「初年次教育・リメディアル教育の現状と課題」大学基準協会主催 第8 回大学評価セミナー講演(2006年5月17日 於東洋大学白山キャンパス)
染谷泰正 (1998) 「AWK による語彙レベル分布計測プログラム Word Level Checker (Ver. 1.5)」(未刊行オンラインペーパ−) [Online] http://www.someya-net.com/kamakuranet/wlc/wlc_manual.html
染谷泰正 (1986/1994)『ライテングマラソン』(英文ビジネスレターライティング通信講座テキスト:全4巻)テキスト第3巻, pp. 148-153. アルク(初版1986, 改訂版 1994)
染谷泰正 (2007) 「英語教育における母語の扱いについて――メタ言語能力を育てるための "CA+1" の英語教育の勧め」 Interactive 23号, pp. 7-10. 旺文社
中條清美・長谷川修治 (2004) 「語彙のカバー率とリーダビリティから見た大学英語入試問題の難易度」日本大学生産工学部研究報告B, 2004年6月第37巻, pp. 45-55.



(文責:染谷)