データ サイエンス ツールボックスに必要なツール
最近、仕事場で、教師なし分類をたくさん行う必要がありました。 基本的に、サンプル集団から N 個のクラスを区別する必要がありました。
コルモゴロフ スミルノフ検定について少し説明し、私たちが解決した問題の 1 つを紹介します。
元の投稿は coffeeanddata.ca
帰無仮説を否定すること。 これは、大学の統計学の授業でのつらい思い出のように聞こえますが、実はここで私たちがやりたいことはまさにこれなのです。 2 つのサンプルがまったく同じ分布から来るという可能性を否定したいのです。 利用可能ないくつかの検定について、非常にハイレベルで非数学的な概観をみてみましょう。
STUDENT’S T-TEST
スチューデントの T 検定は、帰無仮説を棄却する最もよく知られた方法でしょう。 このテストは、標本と正常集団、または別の標本との P 値を計算します。
得られた P-Value は、閾値 (例: .05) と比較することができ、P-Value が小さい場合、帰無仮説を棄却できます。
スチューデント T 検定には問題があり、サンプルは正規でなければなりません (正規分布の形)。
スチューデントの T 検定には問題があり、サンプルは正規分布でなければなりません。
KOLMOGOROV-SMIRNOV 検定
コルモゴロフ スミルノフ検定 (KS 検定) はもう少し複雑で、スチューデントの T 検定では検知できないパターンを検知することができます。
From Wikipedia:
“The Kolmogorov–Smirnov statistic quantifies a distance between the empirical distribution function of the sample and the cumulative distribution function of the reference distribution, or between the empirical distribution functions of two samples.”
Here is an example that shows the difference between Student’s T-Test and KS Test.
Because the sample mean and standard deviation are highly similar the Student’s T-Test gives a very high p-value. KS Test can detect the variance. In this case the red distribution has a slightly binomial distribution which KS detect.
- スチューデントの T 検定は、2 つのサンプルが同じ分布から来る確率は 79.3% であると言います。
- KS検定は、2 つのサンプルが同じ分布から来る確率は 1.6% であると言います。 Shapiro-Wilk 検定と Anderson-Darling 検定は、KS 検定よりも強力だと考えられている 2 つの検定です。 これらの 2 つの検定には大きな欠点があり、2 つのサンプルを比較することができず、常に標準分布のサンプルを比較します。
編集: 私の同僚は、Anderson-Darling が 2 者間検定 (サンプルの比較) にも使用できることを教えてくれました。
「2 標本の K-S 検定は、2 つの標本を比較するための最も有用で一般的なノンパラメトリック手法の 1 つである」 – Wikipedia
DETECT DEVICE USER
この特定の課題のために、特定の装置を使用しているユーザーを検出しなければなりませんでした。 各デバイスは 1 人または多くの異なるユーザーによって使用されており、ユーザーが 1 人か複数かを識別するためのテクニックを考え出す必要がありました。
私たちの戦略
私たちは、グラフ ネットワークと KS テストを組み合わせて、潜在的なクラスターを識別することに決めました。 このデモの背後にある考え方は、すべてのノード (サンプル) が他のすべてのノード (サンプル) に接続されているグラフ ネットワークを想像することです。 これらのノード間の頂点またはリンクは、KSテスト、言い換えれば、これらの2つのノードがどれだけ近いかを意味します。 つまり、KS P-Valueが低い2つのノードは近く、P-Valueが高い2つのノードは遠いということである。 これにより、識別可能なクラスタが形成されることが期待される。
データ
以下は、私たちのデータがどのようなものであるかです。
As you can see, all our sample looks like a normal distribution with a very low standard deviation. We have sampled all the 82 different usage sessions of this device.
Strait from this picture we can see that there are different patterns. All the sample does not have the same histogram distribution. That is a very good start. After this we looked at the obvious cluster of distribution.
To do so, we did the KS matrix, which consists of a KS Two way test of every sample distribution vs every other sample.KS行列のヒートマップをざっと見ただけでは、明らかな結果は得られません(右の図にある通りです)。
階層的クラスタリングの後、私たちはすでにいくつかのより良い結果を得ました(次の図を見てください。)。)