KOLMOGOROV-SMIRNOV テスト | Organic Articles

データサイエンスツールボックスに必要なツール
STUDENT’S T-TEST
KOLMOGOROV-SMIRNOV 検定
DETECT DEVICE USER
もっと読みたい

データサイエンスツールボックスに必要なツール

最近、仕事場で、教師なし分類をたくさん行う必要がありました。基本的に、サンプル集団から N 個のクラスを区別する必要がありました。

コルモゴロフスミルノフ検定について少し説明し、私たちが解決した問題の 1 つを紹介します。

元の投稿は coffeeanddata.ca

帰無仮説を否定すること。これは、大学の統計学の授業でのつらい思い出のように聞こえますが、実はここで私たちがやりたいことはまさにこれなのです。 2 つのサンプルがまったく同じ分布から来るという可能性を否定したいのです。利用可能ないくつかの検定について、非常にハイレベルで非数学的な概観をみてみましょう。

STUDENT’S T-TEST

スチューデントの T 検定は、帰無仮説を棄却する最もよく知られた方法でしょう。このテストは、標本と正常集団、または別の標本との P 値を計算します。

得られた P-Value は、閾値 (例: .05) と比較することができ、P-Value が小さい場合、帰無仮説を棄却できます。

スチューデント T 検定には問題があり、サンプルは正規でなければなりません (正規分布の形)。

スチューデントの T 検定には問題があり、サンプルは正規分布でなければなりません。

KOLMOGOROV-SMIRNOV 検定

コルモゴロフスミルノフ検定 (KS 検定) はもう少し複雑で、スチューデントの T 検定では検知できないパターンを検知することができます。

From Wikipedia:

“The Kolmogorov–Smirnov statistic quantifies a distance between the empirical distribution function of the sample and the cumulative distribution function of the reference distribution, or between the empirical distribution functions of two samples.”

Here is an example that shows the difference between Student’s T-Test and KS Test.

Because the sample mean and standard deviation are highly similar the Student’s T-Test gives a very high p-value. KS Test can detect the variance. In this case the red distribution has a slightly binomial distribution which KS detect.

スチューデントの T 検定は、2 つのサンプルが同じ分布から来る確率は 79.3% であると言います。
KS検定は、2 つのサンプルが同じ分布から来る確率は 1.6% であると言います。 Shapiro-Wilk 検定と Anderson-Darling 検定は、KS 検定よりも強力だと考えられている 2 つの検定です。これらの 2 つの検定には大きな欠点があり、2 つのサンプルを比較することができず、常に標準分布のサンプルを比較します。
編集: 私の同僚は、Anderson-Darling が 2 者間検定 (サンプルの比較) にも使用できることを教えてくれました。

「2 標本の K-S 検定は、2 つの標本を比較するための最も有用で一般的なノンパラメトリック手法の 1 つである」 – Wikipedia

DETECT DEVICE USER

この特定の課題のために、特定の装置を使用しているユーザーを検出しなければなりませんでした。各デバイスは 1 人または多くの異なるユーザーによって使用されており、ユーザーが 1 人か複数かを識別するためのテクニックを考え出す必要がありました。

私たちの戦略

私たちは、グラフネットワークと KS テストを組み合わせて、潜在的なクラスターを識別することに決めました。このデモの背後にある考え方は、すべてのノード (サンプル) が他のすべてのノード (サンプル) に接続されているグラフネットワークを想像することです。これらのノード間の頂点またはリンクは、KSテスト、言い換えれば、これらの2つのノードがどれだけ近いかを意味します。つまり、KS P-Valueが低い2つのノードは近く、P-Valueが高い2つのノードは遠いということである。これにより、識別可能なクラスタが形成されることが期待される。

データ

以下は、私たちのデータがどのようなものであるかです。

As you can see, all our sample looks like a normal distribution with a very low standard deviation. We have sampled all the 82 different usage sessions of this device.

Strait from this picture we can see that there are different patterns. All the sample does not have the same histogram distribution. That is a very good start. After this we looked at the obvious cluster of distribution.

To do so, we did the KS matrix, which consists of a KS Two way test of every sample distribution vs every other sample.KS行列のヒートマップをざっと見ただけでは、明らかな結果は得られません（右の図にある通りです）。

階層的クラスタリングの後、私たちはすでにいくつかのより良い結果を得ました(次の図を見てください。)。)

この二つのデンドログラムで可視化が行われています。 3つのクラスターを確認することができます。

NETWORK GRAPH

デンドログラムクラスタリングがうまくいかなかった後、提案されたグラフアプローチを試みました。ここでの目標は、先に説明したように、すべての可能なノードと頂点をグラフ化することです。頂点の長さは、KS テスト値です。自己参照（常に0である（明らかに自分自身と完全に類似している））を削除する必要がありました。

We then ended up with a network graph where everybody was connected with everybody else which is not particularly useful.

The next step is to only keep the significant link (lower than a certain threshold)

As we can see on this picture, we got a very exciting result. We can clearly see two distinct clusters and three outliers.

This would perfectly fit our model, the big cluster must be the main user and the second cluster could be the alternative user.

After a validity verification, we did find out that the cluster identified some difference between the usage of clusters 1 and 2 but not the one we were looking for. 言い換えれば、それは私たちの問題を解決しませんでしたが、実際には別のコンテキストで有用であるかもしれない、別のパターンを見つけました。

この作業の後、KS テストが異なる分布からサンプルを自動的に区別する非常に強力な方法であると結論づけました。

本日は、KS テストで解決した問題の 1 つを紹介しましたが、他の問題にも使用しました。

もっと読みたい

私のブログでフォローする: coffeeanddata.ca

KS Test は、私たちのデータサイエンススイスナイフの中の良いテストになりつつあります。