Set di dati
Abbiamo estratto il commento della subunità per ogni voce del database Swiss-Prot (versione 45.4) e poi abbiamo usato “Monomer”, “Homodimer”, “Homotrimer”, “Homotetramer”, “Homopentamer”, “Homohexamer”, “Homoheptamer” e “Homooctamer” come parole chiave per cercare le proteine oligomeriche di ogni categoria. Così, sono state recuperate 16819 voci. Poiché c’era solo una proteina nella classe “Homoheptamer”, è stata rimossa. Pertanto, c’erano 16818 proteine nell’intero set di dati. Le sequenze proteiche che contengono caratteri aminoacidici irregolari come “x” e “z” o con una lunghezza superiore a 6000aa o inferiore a 50aa sono state rimosse. Inoltre, le sequenze ridondanti nell’intero dataset sono state rimosse dal programma CD-HIT e PISCES, con una soglia del 25%. Complessivamente, abbiamo ottenuto 1665 proteine in totale. Tuttavia, nel set di dati di 1665 proteine, 948 proteine non erano adatte per il metodo di estrazione delle caratteristiche di composizione del dominio funzionale, perché non potevano ottenere risultati nel database PFAM o appartenevano a classi diverse con esattamente la stessa composizione del dominio. Inoltre, alcune proteine erano “proteine orfane”, il che significa che nessuno dei domini che contenevano era condiviso da altre proteine nel dataset. Di conseguenza, il dataset di allenamento non ridondante è stato composto da 717 proteine rimuovendo ulteriormente queste 948 proteine (Tabella 1). Inoltre, per testare l’efficacia del metodo di composizione dei domini, abbiamo costruito un dataset di test indipendente. Tutte le proteine che contengono i domini coinvolti nel dataset di addestramento ma che non sono presenti in esso sono state estratte dall’intero dataset. Così, abbiamo ottenuto il dataset di test indipendente di 9951 proteine (Tabella 2). Tutti i dati sono disponibili nei file aggiuntivi.
Vettore funzionalità composizione dominio funzionale
L’uso della composizione del dominio funzionale per rappresentare una proteina è stato motivato da una serie di studi precedenti sulle proteine. Qui, il dominio funzionale è definito nel database PFAM, che contiene una grande collezione di allineamenti di sequenze multiple e profili di modelli di Markov nascosti (HMM) che coprono molti domini e famiglie di proteine comuni. La determinazione dei confini del dominio, dei membri della famiglia e degli allineamenti viene eseguita in modo semi-automatico sulla base delle conoscenze degli esperti, della somiglianza di sequenza, dei profili HMM e di altri database di famiglie di proteine. Ci sono collegamenti di numero di adesione al database PFAM nel database Swiss-Prot. Pertanto, abbiamo cercato l’annotazione del dominio PFAM nel database Swiss-Prot per queste 717 proteine, e abbiamo registrato tutti i tipi di domini che contenevano. I risultati hanno mostrato che consistevano totalmente di 540 tipi di domini. Così, la composizione del dominio funzionale di una proteina può essere definita come un vettore 540D (dimensionale).
Per una data proteina, se contiene l’11° dominio nella lista dei domini registrati, l’11° componente della proteina nello spazio del dominio funzionale 540D è assegnato 1; altrimenti, 0 . La proteina può quindi essere formulata esplicitamente come
X = , MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbwvMCKfMBHbqedmvETj2BSbqee0evGueE0jxyaibaieYdOi=BH8vipeYdI8qiW7rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbbG8FasPYRqj0=yi0lXdbba9pGe9qqFf0dXdHuk9fr=xfr=xfrpiWZqaaeaabiGaaiaacaqabeaabeqacmaaaOqaaiaadIfacqGH9aqpdaWadaqaauaabeGageaaaaqaaiaadIhadaWgaaWcbaGaaGymaaqabaaakeaacaWG4bWaaSbaaSqaaiaaikdaaeqaaaGcbaGaeSO7I0eabaGaamiEamaaBaaaleaacaWGQbaabeaaaOqaaiabl6UinbqaaiaadIhadaWgaaWcbaGaaGynaiaaisdacaaIWaaabeaaaaaakiaawUfacaGLDbaacaGGSaaaaa@41A2@
dove x j = { 1 h i t , 0 altri w i s e . MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaacqWG4baEdaWgaaWcbaGaemOAaOgabeaakiabg2da9maaceaabaqbaeqabiGaaaqaaiabigdaXaqaaiabdIgaOjabdMgaPjabdsha0jabcYcaSaqaaiabicdaWaqaaiabd+gaVjabdsha0jabdIgaOjabdwgaLjabdkhaYjabdEha3jabdMgaPjabdohaZjabdwgaLjabc6caUaaaaiaawUhaaaaa@4634@
Di conseguenza, usando ciascuno dei 540 domini funzionali come base, una proteina è rappresentata da un vettore 540D.
L’algoritmo del vicino più vicino
L’algoritmo del vicino più vicino (NNA) confronta le caratteristiche dei nuovi campioni sconosciuti con le caratteristiche dei campioni che sono già stati classificati, e poi, classifica i nuovi campioni nella loro classe di appartenenza. La regola decisionale di NNA assegna la categoria del più vicino di un insieme di campioni precedentemente classificati ad un campione non classificato. Se le distribuzioni e le categorie dei campioni sono sconosciute, la NNA è particolarmente utile. L’NNA è facile da implementare e ha una bassa probabilità di errore. Quindi, è un metodo attraente da impiegare nello studio bioinformatico.
Supponiamo che ci siano date n proteine (x 1 , x 2 , …, x n ), che sono state classificate in m categorie (c 1 , c 2 , …, c m ). Quindi, la categoria a cui appartiene una proteina sconosciuta x può essere predetta dal seguente principio di NNA. In primo luogo, la distanza generalizzata tra x e x i (i = 1, 2, …, n) è definita come:
D ( x , x i ) = 1 – x ⋅ x i ‖ x ‖ ‖ x i ‖ ( i = 1 , 2 , … , n ) , MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaacqWGebarcqGGOaakcqWG4baEcqGGSaalcqWG4baEdaWgaaWcbaGaemyAaKgabeaakiabcMcaPiabg2da9iabigdaXiabgkHiTmaalaaabaGaemiEaGNaeyyXICTaemiEaG3aaSbaaSqaaiabdMgaPbqabaaakeaadaqbdaqaaiabdIha4bGaayzcSlaawQa7amaafmaabaGaemiEaG3aaSbaaSqaaiabdMgaPbqabaaakiaawMa7caGLkWoaaaGaeeiiaaccbaGae8hkaGIaemyAaKMaeyypa0JaeGymaeJaeiilaWIaeGOmaiJaeiilaWIaeiOla4IaeiOla4IaeiOla4IaeiilaWIaemOBa4Mae8xkaKccbiGae4hlaWcaaa@57BA@
dove x-x i è il prodotto di punti dei vettori x e x i . || x || e || x i || sono i loro moduli.
Quando x ≡ x i , D(x, x i ) = 0. In breve, la distanza generalizzata è compresa tra 0 e 1; cioè, D(x, x i ) ∈ .
Allora, il vicino più vicino di x può essere definito come x k ,
dove
D ( x , x k ) = min i = 1 n D ( x , x i ) . MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaacqWGebarcqGGOaakcqWG4baEcqGGSaalcqWG4baEdaWgaaWcbaGaem4AaSgabeaakiabcMcaPiabg2da9maaxadabaGagiyBa0MaeiyAaKMaeiOBa4galeaacqWGPbqAcqGH9aqpcqaIXaqmaeaacqWGUbGBaaGccqWGebarcqGGOaakcqWG4baEcqGGSaalcqWG4baEdaWgaaWcbaGaemyAaKgabeaakiabcMcaPiabc6caUaaa@4820@
Secondo la regola NNA, la proteina x è predetta come appartenente alla categoria c j ∈{c 1 , c 2 ,…, c m } se il suo vicino più prossimo x k appartiene alla categoria c j ∈{c 1 , c 2 ,…, c m }.
Le proteine nel dataset di allenamento e nel dataset di test indipendente sono state tutte definite nella composizione del dominio funzionale 540D, e quindi la predizione NNA è stata effettuata sulla base delle proteine nel dataset di allenamento.