Classification of drug molecules considering their IC50 values using mixed-integer linear programming based hyper-boxes method

本論文では、IC50値を考慮した薬剤分子の分類について述べる。 Ache、BZR、COX-2、DHFR_TG、DHFR_RL、DHFR_PC、そして最終的にはCytochrome P450 C17を標的とした薬剤の挙動を早期に予測するための統計解析とMILPベースのハイパーボックス分類法を組み合わせた統合アプローチを発表する。

この論文で使用したアプローチは、主に5つのステップで構成されています。 最初のステップでは、Marvin Sketchによって薬剤候補の分子構造を構築し、最適化する。 そして、ウェブサーバーであるE-Dragonを用いて、これらの薬剤候補の分子記述子を取得する。 第二段階では、PLS を用いて回帰モデルを構築し、最も重要な記述子を選択する。 次に、前ステップで得られた最も重要な記述子に基づいて、MILPベースのハイパーボックス法を用いて、薬剤候補が分類される。 この一次分類では、モデル内に少数の重要でない記述子が存在するため、分類精度が相対的に低くなる可能性がある。したがって、第4ステップでは、分類精度を阻害する可能性のある重要でない記述子を決定するために、有意性検定分析を実施する。 モデル内に重要でない記述子がある場合、重要でない記述子をより重要なものに置き換えます。そして、第3ステップに戻り、第5ステップで得られた新しいモデルで薬物活性を再度分類します。

我々は、反復アルゴリズムを使用しており、特定のモデルの選択された記述子に対して、有意性テストが満足のいく結果を得られなかった場合、いくつかのステップを繰り返すことができます。 重要度の低い記述子は、各反復において、薬の最終的な分類に影響を与えるより重要な記述子と置き換えられ、研究の成功が向上します。

Figure 1
figure1

分類手法の概要です。

データセット

文献で広く知られているQSARデータセットに我々のアルゴリズムを適用してみました。 ジヒドロ葉酸還元酵素(DHFR)、アセチルコリンエステラーゼ(AchE)、ベンゾジアゼピン受容体(BZR)、シクロオキシゲナーゼ2(COX-2)阻害剤のセットが分類に使用されています。

7つのデータセットを、これらの大規模かつ既知のデータセットにアルゴリズムを適用し、これらのデータセットにおける我々の分類精度を、WEKAデータマイニングパッケージで利用できる他の広く使われている分類器と比較することによって、我々の方法論の検証のために使用した。 各データセットからの代表的な化合物を図2に示す。 ジヒドロ葉酸還元酵素(DHFR)阻害剤セットの実験的IC50値は、3つの異なる種のDHFR酵素について計算し、報告したものである。 P. carinii(PC)、T. gondii(TG)、ラット肝臓(RL)の3つの生物種の酵素に対するDHFR阻害剤の活性は異なっている。 そこで、本研究では、DHFR阻害剤のこれら3種の酵素に対する活性を別々に検討した。 P. carinii DHFRに対しては397種のジヒドロ葉酸還元酵素(DHFR)阻害剤を用い,IC50値は0.31 nMから3700 μM,T. gondii DHFRに対しては378種の阻害剤を用い,0.88 nM から 392 μM,ラット肝臓DHFRに対しては397種の阻害剤を用い,0.156 nMから7470 μMとなった. アセチルコリンエステラーゼ(AchE)阻害剤は、実験的に計算されたIC50値が0.3 nMから100 μMの範囲で報告されている111種が使用された。 ベンゾジアゼピン受容体(BZR)阻害剤のデータセットには、IC50値が1.2 nMから5 μMの範囲で実験的に計算された163の阻害剤が含まれている。 シクロオキシゲナーゼ 2(COX2)阻害剤セットは 322 分子で、IC50 値が 1 nM から 100 μM になるように導出された。 また、本研究で使用したQSARセットは、SutherlandらによるQSAR手法の比較研究でも使用されました。また、我々のアルゴリズムの第一段階のMinitab PLS実行により算出された3D記述子モデルのR2値と、Sutherlandらが同じデータセットで複数のPLSモデルについて報告したR2値も比較されました。

Figure 2
figure2

各QSARデータからの代表化合物を示します。

構造構築と記述子モデルの取得

上記のように、我々の研究では、まず薬剤候補の分子記述子を見つけることが先決である。 そこで、Marvin Sketchを用いて、各薬剤候補の分子構造を構築し、そのエネルギーを最小化によって最適化し、3次元空間での確認を決定する必要があることを計算した。 次に、最適化された3次元構造をE-Dragonにロードし、Webサーバーを利用して分子記述子を計算した。

E-Dragonは多くの記述子ブロックを提案しており、それぞれのブロックには分子の特徴を表すパラメータが含まれているが、本研究で使用したものを列挙すると以下のようになる。 構成的記述子(48)、位相的記述子(119)、連結性指標(33)、情報指標(47)、エッジ隣接指標(107)、位相的電荷指標(21)、幾何学的記述子(74)、3D-MoRSE記述子(160)、官能基カウント(154)、原子中心フラグメント(120)、分子特性(29)。 したがって、QSAR記述子モデルを構築する際に考慮した記述子の総数は912個である。 MINITABを用いた回帰分析では、インスタンス数が属性(記述子)数よりはるかに少ないため、PLSが選択されました。

最も情報量の多い記述子を選択するための PLS によるモデル構築

回帰分析の主な目的は、記述子の観点から医薬品候補の活性 (IC50) を予測するモデルを決定することです。 PLSは、主成分回帰と密接に関連したMLR手法として参照することができます。 基本的に、PLS研究を行うことにより、独立変数Xのセットに基づいて一連の従属変数Yを予測することができます。MINITABは、最も有意な記述子の数の上限を決定することにより、自動的にPLSランを与えてくれました。 各 PLS ランは、独立変数(最も重要な記述子)に対する従属変数(IC50 値)の線形モデルを提供します。 この時点で、関連するモデルが構築され、最も重要なディスクリプタが決定されます。 次のステップは、記述子に基づいて薬剤を初期分類することである。 最初のPLS実行による有意な記述子の選択は、分類において最も効果的なものであるとは限りません。

MILPベースのハイパーボックス法による薬剤候補の分類

第3段階は、薬剤の分類に専念します。前の段階から選択した記述子を使用して、MILPベースのハイパーボックス法を適用します。

データ分類問題の目的は、ある数の属性で記述されるデータポイントを、事前に定義したクラスに割り当てることにあります。 The strength of hyper-boxes classification method is from its ability to use more than one hyper-box when defining a class as shown in Figure 3, and this ability prevents overlapping in the classes, which would not be prevented if the classes were defined with a single hyper-box only.

Figure 3
figure3

Schematic representation of multi-class data classification using hyper-boxes.

The data classification problem is solved in two steps: training step and testing step.

分類のためのMILP問題は,目的関数が学習ステップで最小のハイパーボックスでデータセット中の誤分類を最小化するように構成されている. ハイパーボックスの数の最小化、すなわちハイパーボックスの不必要な使用の排除は、目的関数において小さなスカラーを持つボックスの存在にペナルティを課すことで強制される。

テスト工程では、データ点と各ボックス間の距離を計算し、データ点に最も近いボックスを決定することにより、データ点をクラスに割り当てる。

提案されたMILP問題を最適に解くことは、2値変数の数が多いため、大規模なデータセットでは計算上困難である。 それゆえ、大規模データ分類問題の最適解を得るための3段分解法が開発される。 前処理と呼ぶ第1段階で、分類が困難なインスタンスを同定する。 さらに、計算効率を向上させるために、各クラスに対して種を決定する。 これらの観察結果をより重視し、第2段階では修正したモデルで問題の解を求める。

本論文では、検討したデータセットについて、薬剤分子の活性を分類するために上記の方法を適用した。 このとき、データセットを同数のメンバーからなる10のサブサンプルに無作為に分割する。 この10個のサブサンプルのうち、9個を組み合わせてトレーニングセットとし、残りの1個をテストセットとする。 そして,10個の部分標本のそれぞれをテストセットとして正確に1回ずつ使用し,分類を10回実行する. 最後に、分類の精度をこれら10回の分類の平均値として報告する。

テストセット内の各薬剤候補を、IC50値が低いか高いかに分類する。 この反復研究では、この分類ステップは数回実行されます。最初は記述子の初期セットで、次に有意性分析から得られた記述子の拡張セットを使用します。

第 4 段階では、有意性検定が実行されます。 PLSの実行後、実際にはそうでないのに、記述子が有意であると結論づけることが可能で、この問題は、一次分類後に有意性検定を行うことで解決されます。 有意性検定の主な考え方は、以下のとおりです。 分類が成功するためには、記述子値の分散は、クラスAとB内で、母集団全体であるZよりも小さくなければなりません。

以下の式(2.1)は、F分布を表しています。

S i j 2 / σ i 2 S k 2 / σ i 2 = S i j 2 / S i k 2 = f ν η MathType@MTEF@5@5@+=feaagaart1ev2aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi=xI8qiVKYPFjYdHaVhbbf9v8qqaqFr0xc9vqFj0dXdbba91qpepeI8k8fiI+fsY=rqGqVepae9pg0db9vqaiVgFr0xfr=xfr=xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaqcfa4aaSaaaeaacqWGtbWudaqhaaqaaiabdMgaPjabdQgaQbqaaiabikdaYaaacqGGVaWlcqaHdpWCdaqhaaqaaiabdMgaPbqaaiabikdaYaaaaeaacqWGtbWudaqhaaqaaiabdUgaRbqaaiabikdaYaaacqGGVaWlcqaHdpWCdaqhaaqaaiabdMgaPbqaaiabikdaYaaaaaGccqGH9aqpcqWGtbWudaqhaaWcbaGaemyAaKMaemOAaOgabaGaeGOmaidaaOGaei4la8Iaem4uam1aa0baaSqaaiabdMgaPjabdUgaRbqaaiabikdaYaaakiabg2da9iabdAgaMnaaBaaaleaacqaH9oGBcqaH3oaAaeqaaaaa@5191@
(2.1)

ここで。 S i j 2 MathType@MTEF@5@5@+=feaagaart1ev2aqatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi=xH8viVGI8Gi=hEeeu0xXdbba9frFj0xb9qqpG0dXdb9aspeI8k8fiI+fsY=rqGqVepae9pg0db9vqaiVgFr0xfr=xfr=xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaGaem4uam1aa0baaSqaaiabdMgaPjabdQgaQbqaaiabikdaYaaaaaa@30DC@ は,薬物セットjの記述子iの値の標本分散である. ν = n-1 および η = m-1 は自由度、n は薬剤集合jの記述子iの値の数、mは薬剤集合kの記述子iの値の数です。

そして、帰無仮説S i j 2 = S i k 2によって、仮説検定が実行されます。 MathType@MTEF@5@5@+=feaagaart1ev2aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi=xH8viVGI8Gi=hEeeu0xXdbba9frFj0xb9qqpG0dXdb9aspeI8k8fiI+fsY=rqGqVepae9pg0db9vqaiVgFr0xfr=xfr=xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaGaem4uam1aa0baaSqaaiabdMgaPjabdQgaQbqaaiabikdaYaaakiabg2da9iabdofatnaaDaaaleaacqWGPbqAcqWGRbWAaeaacqaIYaGmaaaaaa@36F3@ , これは、薬剤候補の全セットの分散が、同じクラス内の薬剤の分散と等しいことを示唆している。 薬剤の集合全体の分散はクラス内の分散より大きいはずなので、対立仮説を次のように定義する。 H a = S i j 2 ≻ S i k 2 MathType@MTEF@5@5@+=feaagaart1ev2aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi=xH8viVGI8Gi=hEeeu0xXdbba9frFj0xb9qqpG0dXdb9aspeI8k8fiI+fsY=rqGqVepae9pg0db9vqaiVgFr0xfr=xfr=xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaGaemisaG0aaSbaaSqaaiabdggaHbqabaGccqGH9aqpcqWGtbWudaqhaaWcbaGaemyAaKMaemOAaOgabaGaeGOmaidaaOGaeS4EIyMaem4uam1aa0baaSqaaiabdMgaPjabdUgaRbqaaiabikdaYaaaaaa@3B21@ , ここで、jはデータセット全体のメンバー、kはクラスのメンバーである。 対立仮説を受け入れるためには、今回のfvηのp値が前回のモデルのfvηのp値より小さくなければならないことに注意されたい。

新しい分類モデルの構築

この最後のステップは、ステップ4でモデル中に過大評価された記述子があると結論づけたときに実行します。

そこで、各モデルの代表変数として7、10、15の記述子をそれぞれ選び、回帰分析によって合計3つのモデルを構築し、これら3つのモデルのすべての記述子に有意差分析を適用します。 これらのモデルのうち、1つのモデルで有意でない変数が存在すると判断した場合、他のモデルで有意である変数に置き換える。 この調整により、分類精度が向上することが証明されています。 なぜなら、これらの7、10、15の属性は、PLS回帰分析によって選択され、IC50値を記述する上で証明された強さを持っているからです。

私たちの方法によって得られた結果を、WEKA で利用可能な 63 の分類法のすべてと比較し、16 の最高の WEKA 分類法を、対応する分類精度とともに表 3 で私たちのアルゴリズムによって得られた結果とともに報告しました。 WEKA分類器で使用される属性は、有意差検定の後に見つかった同じ記述子であり、10回クロスバリデーションが我々の分類法を含む各分類器に適用された。

WEKAは、その63の分類器の中に、広く知られているすべての機械学習アルゴリズムが含まれているので、比較目的に使用するには強力なデータマイニングツールと言える。 これらの既存の機械学習アルゴリズムが、記述子値に基づいて活性化合物と不活性化合物の二値分類に成功したことも、以前に報告されています。 以下は、WEKAで利用可能な最も性能の良いデータ分類法の概要である。 ベイジアンネットワークB = <N, A, Φ ><N, A> で、まとめて Φ と表すことができます。 各ノードn∈Nはデータセットの属性を表し、ノード間の各円弧a∈Aは確率的依存関係を表す。 Naive Bayes分類器は,すべての変数が互いに独立であると仮定し,分類ノードは他のすべてのノードの親ノードとして表現される.

ロジスティック分類器は,2クラスのロジスティック回帰モデルを構築します. これは統計的な回帰モデルで,ロジスティック回帰はクラス分布の対数尤度比が観測値で線形であると仮定しています. Simple Logistic 分類器は,単一の属性に基づく線形ロジスティック回帰モデルを構築します. このモデルは,通常の最小2乗回帰モデルの一般化されたモデルです. 多層パーセプトロンは、逆伝播を利用したニューラルネットワークです。 処理要素であるパーセプトロンは、複数の入力を線形結合した非線形活性化関数である単一の出力を計算し、そのパラメータは学習段階を通じて学習される。 SMO (sequential minimal optimization) は、WEKA SVM (support vector machine) とも呼ばれ、大きな二次計画最適化問題を小さなQP最適化問題に分割し、多項カーネルを用いたサポートベクトル分類器を学習する手法です。

IB1 は、学習インスタンスを保存し分類時まで実際には何もしないという意味で遅延分類器としてリストアップされています。 IB1はインスタンスベースの学習器です。 これは、与えられたテストインスタンスにユークリッド距離で最も近い学習インスタンスを見つけます。

Logit Boostは加法的ロジスティック回帰を使用します。 このアルゴリズムは、重みに特定の閾値を割り当てることで高速化することができます。 Multi Class Classifierは、マルチクラス問題に対して、4つの異なる2クラス分類法を使用します。

ランダムフォレストとLMTは決定木法である。 ランダムフォレストはランダムツリーのアンサンブルを集めてランダムツリーを生成し、LMTはロジスティックモデルツリーを構築し、各ノードでロジスティック回帰関数をフィッティングしながらクロスバリデーションで反復回数を決定している。 OneR(one rule)は、1レベルの決定木を構築し、各属性からルールを学習し、最も誤差の少ないルールを1ルールとして選択するものである。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です