Data sets
Swiss-Protデータベース(version 45. 4)のすべてのエントリーのサブユニットコメントを抽出し、「Monomer」「Homodimer」「Homotrimer」「Homotetramer」「Homopentamer」「Homohexamer」「Homoheptamer」を使用しました。そして、”Monomer”, “Homodimer”, “Homotrimer”, “Homotetramer”, “Homopentamer”, “Homohexamer”, “Homoheptamer”, “Homooctamer “をキーワードにして、それぞれのカテゴリーのオリゴマー蛋白質を検索した。 その結果、16819件が検索されました。 Homoheptamer “クラスには1つのタンパク質しかなかったので、それを削除しました。 したがって、データセット全体で16818個のタンパク質がありました。 x “や “z “などの不規則なアミノ酸文字を含むものや、長さが6000aa以上50aa未満のものを削除しました。 さらに、CD-HITおよびPISCESプログラムにより、データセット全体の冗長な配列を25%の閾値で削除しました。 その結果、合計で1665個のタンパク質が得られました。 しかし、1665個のタンパク質のデータセットの中で、948個のタンパク質は、PFAMデータベースでヒットしなかったか、全く同じドメイン構成の異なるクラスに属していたため、機能ドメイン構成特徴抽出法には適していませんでした。 さらに、一部のタンパク質は「オーファンタンパク質」と呼ばれ、そのタンパク質が含むドメインがデータセット内の他のタンパク質と共有されていないことが分かりました。 その結果,これらの948個のタンパク質をさらに削除して,717個のタンパク質からなる非冗長トレーニングデータセットを作成しました(表1). さらに、ドメイン構成法の有効性を検証するために、独立したテストデータセットを構築しました。 トレーニングデータセットに含まれるドメインを含むが、トレーニングデータセットには含まれていないタンパク質を、全データセットから抽出した。 こうして、9951個のタンパク質からなる独立テストデータセットが得られた(表2)。
機能ドメイン組成特徴ベクトル
タンパク質を表現するために機能ドメイン組成を使用することは、これまでのタンパク質に関する一連の研究が動機となっています。 ここでは、機能ドメインはPFAMデータベースで定義されています。PFAMデータベースには、多くの一般的なタンパク質のドメインとファミリーをカバーする多重配列アラインメントと隠れマルコフモデル(HMM)プロファイルの大規模なコレクションが含まれています。 ドメイン境界、ファミリーメンバー、アラインメントの決定は、専門家の知識、配列の類似性、HMM-プロファイル、他のタンパク質ファミリーデータベースに基づいて半自動的に行われます。 Swiss-Protデータベースには、PFAMデータベースへのアクセッション番号のリンクがあります。 そこで、これら717個のタンパク質について、Swiss-ProtデータベースのPFAMドメインアノテーションを検索し、含まれるドメインの種類をすべて記録しました。 その結果、これらのタンパク質には540種類のドメインが含まれていることがわかった。
あるタンパク質が、記録されたドメインリストの11番目のドメインを含んでいれば、540Dの機能ドメイン空間における11番目の構成要素を1とし、そうでなければ0とします。 このように、タンパク質は次のように明示的に定式化することができる
X = , MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbwvMCKfMBHbqedmvETj2BSbqee0evGueE0jxyaibaieYdOi=BH8vipeYdI8qiW7rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbbG8FasPYRqj0=yi0lXdbba9pGe9qqFf0dXdHuk9fr=xfr=xfrpiWZqaaeaabiGaaiaacaqabeaabeqacmaaaOqaaiaadIfacqGH9aqpdaWadaqaauaabeGageaaaaqaaiaadIhadaWgaaWcbaGaaGymaaqabaaakeaacaWG4bWaaSbaaSqaaiaaikdaaeqaaaGcbaGaeSO7I0eabaGaamiEamaaBaaaleaacaWGQbaabeaaaOqaaiabl6UinbqaaiaadIhadaWgaaWcbaGaaGynaiaaisdacaaIWaaabeaaaaaakiaawUfacaGLDbaacaGGSaaaaa@41A2@
ここで、x j = { 1 h i t , 0 o t h e r w i s e . MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaacqWG4baEdaWgaaWcbaGaemOAaOgabeaakiabg2da9maaceaabaqbaeqabiGaaaqaaiabigdaXaqaaiabdIgaOjabdMgaPjabdsha0jabcYcaSaqaaiabicdaWaqaaiabd+gaVjabdsha0jabdIgaOjabdwgaLjabdkhaYjabdEha3jabdMgaPjabdohaZjabdwgaLjabc6caUaaaaiaawUhaaaaa@4634@
続いて。 540個の機能ドメインをベースにして、タンパク質を540Dベクターで表現します。
The Nearest Neighbor Algorithm
Nearest Neighbor Algorithm (NNA)は、未知の新しいサンプルの特徴と、既に分類されているサンプルの特徴を比較し、新しいサンプルをクラス・メンバーシップに分類するアルゴリズムである。 NNAの決定ルールは、過去に分類されたサンプルのうち、最も近いもののカテゴリーを未分類のサンプルに割り当てるものです。 サンプルの分布やカテゴリーが不明な場合、NNAは特に有効である。 NNAは実装が簡単で,エラー確率が低い.
例えば、n個のタンパク質(x 1 , x 2 , …, x n )が与えられ、それらがm個のカテゴリー(c 1 , c 2 , …, c m )に分類されているとします。 すると、未知のタンパク質xがどのカテゴリーに属するかは、次のようなNNAの原理で予測することができる。 まず、x と x i (i = 1, 2, …, n) の間の一般化された距離を次のように定義する:
D ( x , x i ) = 1 – x ⋅ x i ‖ x i ‖ ( i = 1, 2, …, …. , n ) , MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaacqWGebarcqGGOaakcqWG4baEcqGGSaalcqWG4baEdaWgaaWcbaGaemyAaKgabeaakiabcMcaPiabg2da9iabigdaXiabgkHiTmaalaaabaGaemiEaGNaeyyXICTaemiEaG3aaSbaaSqaaiabdMgaPbqabaaakeaadaqbdaqaaiabdIha4bGaayzcSlaawQa7amaafmaabaGaemiEaG3aaSbaaSqaaiabdMgaPbqabaaakiaawMa7caGLkWoaaaGaeeiiaaccbaGae8hkaGIaemyAaKMaeyypa0JaeGymaeJaeiilaWIaeGOmaiJaeiilaWIaeiOla4IaeiOla4IaeiOla4IaeiilaWIaemOBa4Mae8xkaKccbiGae4hlaWcaaa@57BA@
ここで、x-x iはベクトルxとx iのドットプロダクトです。
x ≡ x i , D(x, x i ) = 0. 簡単に言うと、一般化された距離は0と1の範囲内、つまり D(x, x i ) ∈ .
すると、xの最近傍は、x k ,
D ( x , x k ) = min i = 1 n D ( x , x i ) と定義でき、
D ( x , x k ) = min i = 1 n D ( x , x i ) . MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaacqWGebarcqGGOaakcqWG4baEcqGGSaalcqWG4baEdaWgaaWcbaGaem4AaSgabeaakiabcMcaPiabg2da9maaxadabaGagiyBa0MaeiyAaKMaeiOBa4galeaacqWGPbqAcqGH9aqpcqaIXaqmaeaacqWGUbGBaaGccqWGebarcqGGOaakcqWG4baEcqGGSaalcqWG4baEdaWgaaWcbaGaemyAaKgabeaakiabcMcaPiabc6caUaaa@4820@
NNAのルールによると。 NNAルールによると、クエリタンパク質xがカテゴリc j∈{c 1 , c 2 , … c m }に属していると予測されます。
トレーニングデータセットと独立テストデータセットのタンパク質はすべて540Dの機能ドメイン構成で定義されており、トレーニングデータセットのタンパク質に基づいてNNA予測が行われました
また、独立テストデータセットのタンパク質はすべて540Dの機能ドメイン構成で定義されており、トレーニングデータセットのタンパク質に基づいてNNA予測が行われました。