Articles

Classification of protein quaternary structure by functional domain composition

Posted on

Data sets

Wyodrębniliśmy komentarz podjednostkowy dla każdego wpisu w bazie danych Swiss-Prot (wersja 45.4), a następnie użyliśmy „Monomer”, „Homodimer”, „Homotrimer”, „Homotetramer”, „Homopentamer”, „Homohexamer”, „Homoheptamer” i „Homooctamer” jako słów kluczowych do wyszukiwania białek oligomerycznych każdej kategorii. W ten sposób uzyskano 16819 wpisów. Ponieważ w klasie „Homoheptamer” znajdowało się tylko jedno białko, zostało ono usunięte. W całym zbiorze danych było więc 16818 białek. Sekwencje białek, które zawierają nieregularne znaki aminokwasowe, takie jak „x” i „z” lub o długości powyżej 6000aa lub mniej niż 50aa zostały usunięte. Ponadto, sekwencje nadmiarowe w całych zbiorach danych zostały usunięte przez program CD-HIT i PISCES, przy progu 25%. W sumie otrzymaliśmy 1665 białek. Jednakże, w zbiorze 1665 białek, 948 białek nie nadawało się do metody ekstrakcji cech funkcjonalnego składu domenowego, ponieważ albo nie mogły one uzyskać trafień w bazie PFAM, albo należały do różnych klas o dokładnie takim samym składzie domenowym. Ponadto, niektóre białka były „białkami sierocymi”, co oznacza, że żadna z domen, które zawierały nie była współdzielona przez inne białka w zbiorze danych. W rezultacie, nieredundantny treningowy zbiór danych składał się z 717 białek poprzez dalsze usunięcie tych 948 białek (Tabela 1). Dodatkowo, w celu sprawdzenia efektywności metody kompozycji domen, skonstruowaliśmy niezależny zbiór testowy. Z całego zbioru danych wyodrębniono wszystkie białka, które zawierają domeny zaangażowane w zbiór treningowy, ale nie znajdują się w nim. W ten sposób otrzymaliśmy niezależny zbiór testowy składający się z 9951 białek (Tabela 2). Wszystkie dane są dostępne w dodatkowych plikach.

Wektor cech składu domeny funkcjonalnej

Użycie składu domeny funkcjonalnej do reprezentacji białka zostało umotywowane przez serię wcześniejszych badań białek . Tutaj, domena funkcjonalna jest zdefiniowana w bazie danych PFAM, która zawiera dużą kolekcję wielokrotnych dopasowań sekwencji i profili ukrytego modelu Markowa (HMM) obejmujących wiele wspólnych domen białkowych i rodzin. Określenie granic domen, członków rodzin i dopasowań jest wykonywane półautomatycznie w oparciu o wiedzę ekspercką, podobieństwo sekwencji, profile HMM i inne bazy danych rodzin białkowych. W bazie Swiss-Prot znajdują się linki z numerami akcesyjnymi do bazy PFAM. W związku z tym, przeszukaliśmy anotację domen PFAM w bazie Swiss-Prot dla tych 717 białek i zarejestrowaliśmy wszystkie typy domen, które zawierały. Wyniki pokazały, że w całości składały się one z 540 typów domen. Tak więc, funkcjonalny skład domenowy białka może być zdefiniowany jako wektor 540D (wymiarowy).

Dla danego białka, jeśli zawiera ono 11 domenę z zarejestrowanej listy domen, 11 składnik białka w przestrzeni domen funkcjonalnych 540D jest przypisany 1; w przeciwnym razie, 0 . Białko może być więc jednoznacznie sformułowane jako

X = , MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbwvMCKfMBHbqedmvETj2BSbqee0evGueE0jxyaibaieYdOi=BH8vipeYdI8qiW7rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbbG8FasPYRqj0=yi0lXdbba9pGe9qqFf0dXdHuk9fr=xfr=xfrpiWZqaaeaabiGaaiaacaqabeaabeqacmaaaOqaaiaadIfacqGH9aqpdaWadaqaauaabeGageaaaaqaaiaadIhadaWgaaWcbaGaaGymaaqabaaakeaacaWG4bWaaSbaaSqaaiaaikdaaeqaaaGcbaGaeSO7I0eabaGaamiEamaaBaaaleaacaWGQbaabeaaaOqaaiabl6UinbqaaiaadIhadaWgaaWcbaGaaGynaiaaisdacaaIWaaabeaaaaaakiaawUfacaGLDbaacaGGSaaaaa@41A2@

gdzie x j = { 1 h i t , 0 i n n e w i s e . MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaacqWG4baEdaWgaaWcbaGaemOAaOgabeaakiabg2da9maaceaabaqbaeqabiGaaaqaaiabigdaXaqaaiabdIgaOjabdMgaPjabdsha0jabcYcaSaqaaiabicdaWaqaaiabd+gaVjabdsha0jabdIgaOjabdwgaLjabdkhaYjabdEha3jabdMgaPjabdohaZjabdwgaLjabc6caUaaaaiaawUhaaaaa@4634@

W związku z tym, wykorzystując każdą z 540 domen funkcjonalnych jako bazę, białko jest reprezentowane przez wektor 540D.

Algorytm Najbliższego Sąsiada

Algorytm Najbliższego Sąsiada (NNA) porównuje cechy nieznanych nowych próbek z cechami próbek, które zostały już sklasyfikowane, a następnie klasyfikuje nowe próbki do ich klasy przynależności. Reguła decyzyjna NNA przypisuje kategorię najbliższą jednej z wcześniej sklasyfikowanych próbek do próbki niesklasyfikowanej. Jeżeli rozkłady i kategorie próbek są nieznane, NNA jest szczególnie użyteczna. NNA jest łatwa w implementacji i ma niskie prawdopodobieństwo błędu. Jest to więc atrakcyjna metoda do zastosowania w badaniach bioinformatycznych.

Załóżmy, że mamy n białek (x 1 , x 2 , …, x n ), które zostały zaklasyfikowane do m kategorii (c 1 , c 2 , …, c m ). Następnie, kategorię, do której należy nieznane białko x można przewidzieć zgodnie z następującą zasadą NNA. Po pierwsze, uogólniona odległość pomiędzy x i x i (i = 1, 2, …, n) jest zdefiniowana jako:

D ( x , x i ) = 1 – x ⋅ x i ‖ x ‖ ‖ x i ‖ ( i = 1 , 2 , … , n ) , MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaacqWGebarcqGGOaakcqWG4baEcqGGSaalcqWG4baEdaWgaaWcbaGaemyAaKgabeaakiabcMcaPiabg2da9iabigdaXiabgkHiTmaalaaabaGaemiEaGNaeyyXICTaemiEaG3aaSbaaSqaaiabdMgaPbqabaaakeaadaqbdaqaaiabdIha4bGaayzcSlaawQa7amaafmaabaGaemiEaG3aaSbaaSqaaiabdMgaPbqabaaakiaawMa7caGLkWoaaaGaeeiiaaccbaGae8hkaGIaemyAaKMaeyypa0JaeGymaeJaeiilaWIaeGOmaiJaeiilaWIaeiOla4IaeiOla4IaeiOla4IaeiilaWIaemOBa4Mae8xkaKccbiGae4hlaWcaaa@57BA@

gdzie x-x i jest iloczynem punktowym wektorów x i x i . || x || i || x i || są ich modułami.

Gdy x ≡ x i , D(x, x i ) = 0. W skrócie, uogólniona odległość jest z zakresu 0 i 1; tzn, D(x, x i ) ∈ .

Wtedy najbliższy sąsiad x może być zdefiniowany jako x k ,

gdzie

D ( x , x k ) = min i = 1 n D ( x , x i ) . MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaacqWGebarcqGGOaakcqWG4baEcqGGSaalcqWG4baEdaWgaaWcbaGaem4AaSgabeaakiabcMcaPiabg2da9maaxadabaGagiyBa0MaeiyAaKMaeiOBa4galeaacqWGPbqAcqGH9aqpcqaIXaqmaeaacqWGUbGBaaGccqWGebarcqGGOaakcqWG4baEcqGGSaalcqWG4baEdaWgaaWcbaGaemyAaKgabeaakiabcMcaPiabc6caUaaa@4820@

Zgodnie z regułą NNA, białko zapytania x jest przewidywane jako należące do kategorii c j ∈{c 1 , c 2 ,. …., c m }, jeśli jego najbliższy sąsiad x k należy do kategorii c j ∈{c 1 , c 2 ,…, c m }.

Białka w zbiorze danych treningowych i niezależnym zbiorze danych testowych zostały zdefiniowane w składzie domen funkcjonalnych 540D, a następnie predykcja NNA została przeprowadzona w oparciu o białka w zbiorze danych treningowych.

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *