Klassifizierung der Proteinquaternärstruktur nach funktioneller Domänenzusammensetzung | BMC Bioinformatics

Datensätze

Wir extrahierten den Untereinheitskommentar für jeden Eintrag in der Swiss-Prot Datenbank (Version 45.4) und verwendeten dann „Monomer“, „Homodimer“, „Homotrimer“, „Homotetramer“, „Homopentamer“, „Homohexamer“, „Homoheptamer“ und „Homooctamer“ als Schlüsselwörter, um nach den oligomeren Proteinen jeder Kategorie zu suchen. So konnten 16819 Einträge gefunden werden. Da es nur ein Protein in der Klasse „Homoheptamer“ gab, wurde es entfernt. Somit gab es 16818 Proteine im gesamten Datensatz. Die Proteinsequenzen, die unregelmäßige Aminosäurezeichen wie „x“ und „z“ oder mit einer Länge über 6000aa oder unter 50aa enthalten, wurden entfernt. Außerdem wurden redundante Sequenzen in den gesamten Datensätzen durch das CD-HIT- und PISCES-Programm mit einem Schwellenwert von 25% entfernt. Insgesamt kamen wir auf 1665 Proteine in der Gesamtmenge. In dem Datensatz mit 1665 Proteinen waren jedoch 948 Proteine nicht für die Methode zur Extraktion von Merkmalen der funktionalen Domänenzusammensetzung geeignet, da sie entweder keine Treffer in der PFAM-Datenbank erzielen konnten oder zu verschiedenen Klassen mit genau der gleichen Domänenzusammensetzung gehörten. Außerdem waren einige Proteine „verwaiste Proteine“, was bedeutet, dass keine der Domänen, die sie enthielten, von anderen Proteinen im Datensatz geteilt wurden. Folglich wurde der nicht-redundante Trainingsdatensatz aus 717 Proteinen zusammengesetzt, indem diese 948 Proteine weiter entfernt wurden (Tabelle 1). Um die Effektivität der Domänenzusammensetzungsmethode zu testen, haben wir zusätzlich einen unabhängigen Testdatensatz erstellt. Alle Proteine, die die Domänen enthalten, die im Trainingsdatensatz enthalten sind, aber nicht im Trainingsdatensatz, wurden aus dem gesamten Datensatz extrahiert. So erhielten wir den unabhängigen Testdatensatz von 9951 Proteinen (Tabelle 2). Alle Daten sind in den zusätzlichen Dateien verfügbar.

Merkmalsvektor der funktionalen Domänenzusammensetzung

Die Verwendung der funktionalen Domänenzusammensetzung zur Darstellung eines Proteins wurde durch eine Reihe früherer Studien von Proteinen motiviert. Hier wird die funktionale Domäne in der PFAM-Datenbank definiert, die eine große Sammlung von multiplen Sequenzalignments und Hidden Markov Model (HMM)-Profilen enthält, die viele gängige Proteindomänen und -familien abdecken . Die Bestimmung der Domänengrenzen, Familienmitglieder und Alignments erfolgt halbautomatisch auf Basis von Expertenwissen, Sequenzähnlichkeit, HMM-Profilen und anderen Proteinfamiliendatenbanken . In der Swiss-Prot-Datenbank gibt es Zugriffsnummern-Links zur PFAM-Datenbank. Daher haben wir die PFAM-Domänen-Annotation in der Swiss-Prot-Datenbank nach diesen 717 Proteinen durchsucht und alle Arten von Domänen erfasst, die sie enthielten. Die Ergebnisse zeigten, dass sie insgesamt aus 540 Domänentypen bestanden. Somit kann die funktionelle Domänenzusammensetzung eines Proteins als ein 540D (dimensionaler) Vektor definiert werden.

Für ein gegebenes Protein, wenn es die 11. Domäne in der aufgezeichneten Domänenliste enthält, wird der 11. Komponente des Proteins im 540D funktionellen Domänenraum 1 zugewiesen; andernfalls 0 . Das Protein kann also explizit formuliert werden als

X = , MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbwvMCKfMBHbqedmvETj2BSbqee0evGueE0jxyaibaieYdOi=BH8vipeYdI8qiW7rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbbG8FasPYRqj0=yi0lXdbba9pGe9qqFf0dXdHuk9fr=xfr=xfrpiWZqaaeaabiGaaiaacaqabeaabeqacmaaaOqaaiaadIfacqGH9aqpdaWadaqaauaabeGageaaaaqaaiaadIhadaWgaaWcbaGaaGymaaqabaaakeaacaWG4bWaaSbaaSqaaiaaikdaaeqaaaGcbaGaeSO7I0eabaGaamiEamaaBaaaleaacaWGQbaabeaaaOqaaiabl6UinbqaaiaadIhadaWgaaWcbaGaaGynaiaaisdacaaIWaaabeaaaaaakiaawUfacaGLDbaacaGGSaaaaa@41A2@

wobei x j = { 1 h i t , 0 o t h e r w i s e . MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaacqWG4baEdaWgaaWcbaGaemOAaOgabeaakiabg2da9maaceaabaqbaeqabiGaaaqaaiabigdaXaqaaiabdIgaOjabdMgaPjabdsha0jabcYcaSaqaaiabicdaWaqaaiabd+gaVjabdsha0jabdIgaOjabdwgaLjabdkhaYjabdEha3jabdMgaPjabdohaZjabdwgaLjabc6caUaaaaiaawUhaaaaa@4634@

Anschließend, unter Verwendung jeder der 540 funktionellen Domänen als Basis, wird ein Protein durch einen 540D-Vektor dargestellt.

Der Nearest Neighbor Algorithmus

Der Nearest Neighbor Algorithmus (NNA) vergleicht die Merkmale der unbekannten neuen Proben mit den Merkmalen der bereits klassifizierten Proben und klassifiziert dann die neuen Proben in ihre Klassenzugehörigkeit. Die Entscheidungsregel von NNA ordnet einer unklassifizierten Probe die Kategorie der nächstgelegenen aus einer Menge von bereits klassifizierten Proben zu. Wenn die Verteilungen und die Kategorien der Stichproben unbekannt sind, ist NNA besonders nützlich. NNA ist einfach zu implementieren und hat eine geringe Fehlerwahrscheinlichkeit . Daher ist es eine attraktive Methode, die in der Bioinformatik eingesetzt werden kann.

Angenommen, wir haben n Proteine (x 1 , x 2 , …, x n ), die in m Kategorien (c 1 , c 2 , …, c m ) klassifiziert wurden. Dann kann die Kategorie, zu der ein unbekanntes Protein x gehört, nach dem folgenden NNA-Prinzip vorhergesagt werden. Zunächst wird die verallgemeinerte Distanz zwischen x und x i (i = 1, 2, …, n) definiert als:

D ( x , x i ) = 1 – x ⋅ x i ‖ x ‖ ( i = 1 , 2 , … , n ) , MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaacqWGebarcqGGOaakcqWG4baEcqGGSaalcqWG4baEdaWgaaWcbaGaemyAaKgabeaakiabcMcaPiabg2da9iabigdaXiabgkHiTmaalaaabaGaemiEaGNaeyyXICTaemiEaG3aaSbaaSqaaiabdMgaPbqabaaakeaadaqbdaqaaiabdIha4bGaayzcSlaawQa7amaafmaabaGaemiEaG3aaSbaaSqaaiabdMgaPbqabaaakiaawMa7caGLkWoaaaGaeeiiaaccbaGae8hkaGIaemyAaKMaeyypa0JaeGymaeJaeiilaWIaeGOmaiJaeiilaWIaeiOla4IaeiOla4IaeiOla4IaeiilaWIaemOBa4Mae8xkaKccbiGae4hlaWcaaa@57BA@

wobei x-x i das Punktprodukt der Vektoren x und x i ist. || x || und || x i || sind ihre Moduli.

Wenn x ≡ x i , D(x, x i ) = 0. Kurz gesagt, der verallgemeinerte Abstand liegt im Bereich von 0 und 1; d.h., D(x, x i ) ∈ .

Dann kann der nächste Nachbar von x definiert werden als x k ,

wobei

D ( x , x k ) = min i = 1 n D ( x , x i ) . MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaacqWGebarcqGGOaakcqWG4baEcqGGSaalcqWG4baEdaWgaaWcbaGaem4AaSgabeaakiabcMcaPiabg2da9maaxadabaGagiyBa0MaeiyAaKMaeiOBa4galeaacqWGPbqAcqGH9aqpcqaIXaqmaeaacqWGUbGBaaGccqWGebarcqGGOaakcqWG4baEcqGGSaalcqWG4baEdaWgaaWcbaGaemyAaKgabeaakiabcMcaPiabc6caUaaa@4820@

Nach der NNA-Regel, wird das Anfrageprotein x als zu der Kategorie c j ∈{c 1 , c 2 ,…., c m }, wenn sein nächster Nachbar x k zur Kategorie c j ∈{c 1 , c 2 ,…, c m } gehört.

Die Proteine im Trainingsdatensatz und im unabhängigen Testdatensatz wurden alle in der 540D-Zusammensetzung der funktionalen Domäne definiert, und dann wurde die NNA-Vorhersage basierend auf den Proteinen im Trainingsdatensatz durchgeführt.

Datensätze

Merkmalsvektor der funktionalen Domänenzusammensetzung

Der Nearest Neighbor Algorithmus

Schreibe einen Kommentar Antworten abbrechen