Word Level Checker (Online Ver. 2.0)   Last modified: May 1, 2009

WLC の各種統計指標について

分析結果は一覧表と棒グラフで示され、その下に以下のようなデータが表示されます。

Total Number of Words
Total Number of Word Types
Type/Token Ratio (TTR)
Total Number of Sentences
Average Sentence Length (in wrds)
Average Word Length (in chars)
Average Word Level
Var
S.D.

このうち Total Number of Word Types (総タイプ数) は "Count Mode" で "Type" を指定した場合にのみ表示されます(それ以外の場合は NA 表示になります)。

Type/Token Ration (TTR) は 1 に近いほど総語数に対する異なり語数の比率が多いことを示します。仮に総語数 (Token) が1000語として、そのすべてが違う単語であったとすると、TTR は 1 になります。同じように、総語数 1000語に対して異語数 (Type) が 100 なら TTR は 0.1 ということになります。TTR は、例えば学生の書いた英文エッセーの語彙密度 (lexical density) を測定する際の指標として使うことができます。他の条件が同じであれば、TTR の値が高いほど(=1に近いほど)その学生の語彙習得度は高いということができます。また、使用した語彙の難易度レベルの分布を見ることで、その学生の「使用語彙 (Active Vocaburaly)」 の範囲を測定することができます。なお、TTR は分母(全体の語数)が多くなればなるほどその値が小さくなる傾向がありますので、大規模なテクストを分析する場合には一般に全体を 1,000 語または10,000語ごとに区切って算出し、その平均値を指標として使います。

Total Number of Sentences は総センテンス数、Average Sentence Length は平均文長(文当たりの平均語数)、Average Word Length は平均語長(語当たりの平均文字数)をそれぞれ示します。この 3 つの指標は、以下に述べるリーダビリティ指標とともに、現バージョンで新たに付け加えられたものです。

Var は分散 (Variance)、SD は標準偏差 (Standard Deviation) をそれぞれ示します。分散は平均 (Average = Mean) からの各値の差を自乗(=二乗)してその総和平均を求めたものです。自乗するのは+−の符号を消すための数学的操作ですが、自乗するという操作が入るため、平均からの距離が誇張されてしまうという欠点があります。そこで、自乗和を平均した分散の根を求めます。これが標準偏差 (= SQRT(VAR)) ということになります1)。標準偏差とは、要するに平均からの「ばらつき」を示す指標ですが、いま仮に標準偏差値が 50.25 であったとすると、これは当該データの約 3分の2 が平均値から ±50.25 の範囲に入っているということを意味します。標準偏差値が大きければ、平均値からの「ばらつき」も大きいということになります。

なお、プログラムに実装されている各統計値の計算方法は以下のとおりですが、このうち Average Word Level (平均語彙レベル=ave)の算出は "Unknown words" の扱い方で結果がかなり違ってきます。これらの語には語彙レベルを付与することができませんので、単純にゼロ値として計算した場合、その数が多くなるほど計算結果に大きな偏りが出てきます。そこで、本プログラムでは "Unknown words" を総語数から差し引いて計算するという方法をとっています。つまり、本プログラムで算出する Average Word Level とは、あくまでも指定したベース辞書の語彙難易度レンジ内にある単語について、その平均難易度を出したものということになります。

ave = sm/(total-k)
      where 
      sm += $1*$4 (各語彙レベルの難度タグ($1)の値と頻度数($4)の積の総和) [注]
      total += $4 (各語彙レベルの頻度数($4)の総和=総語数)
      k = total number of unknown words(ベース辞書に含まれていない単語の総数)
var = (w-sm^2/total)/total
      where
      w += $1^2*$4
sd = sqrt(var)

これらの基礎統計量のほか、現バージョンの WLC には新たに Automated Readability Index (ARI) および Coleman-Liau Index (CLI) と呼ばれる 2 種類の「リーダビリティ」指標 (Readability Indices)が追加されています。詳しくは別稿を参照してください。

----------
1)  『パソコンによる外国語研究』 上田博人/くろしお出版 (1998, pp.39-47)


(文責:染谷)