Datasets
We hebben voor elke entry in de Swiss-Prot database (versie 45.4) en gebruikten vervolgens “Monomer”, “Homodimer”, “Homotrimer”, “Homotetramer”, “Homopentamer”, “Homohexamer”, “Homoheptamer”, en “Homooctamer” als trefwoorden om te zoeken naar de oligomere eiwitten van elke categorie. Zo werden 16819 gegevens gevonden. Omdat er slechts één eiwit in de klasse “Homoheptamer” was, werd dit verwijderd. Er waren dus 16818 eiwitten in de hele dataset. De eiwitsequenties die onregelmatige aminozuurtekens bevatten, zoals “x” en “z”, of met een lengte van meer dan 6000aa of minder dan 50aa, werden verwijderd. Bovendien werden overbodige sequenties in de hele dataset verwijderd door het CD-HIT en PISCES programma, met een drempel van 25%. In totaal werden 1665 eiwitten gevonden. In de dataset van 1665 eiwitten waren echter 948 eiwitten niet geschikt voor de functionele domeinsamenstelling-extractiemethode, omdat ze ofwel geen hits konden krijgen in de PFAM-database of tot verschillende klassen behoorden met precies dezelfde domeinsamenstelling. Bovendien waren sommige eiwitten “wees-eiwitten”, wat betekent dat geen van de domeinen die ze bevatten werden gedeeld door andere eiwitten in de dataset. Bijgevolg werd de niet-redundante opleidingsdataset samengesteld uit 717 eiwitten door deze 948 eiwitten verder te verwijderen (tabel 1). Om de doeltreffendheid van de domeinsamenstellingsmethode te testen, construeerden we bovendien een onafhankelijke testdataset. Alle eiwitten die de domeinen bevatten die betrokken zijn bij de training dataset, maar die er niet in voorkomen, werden uit de hele dataset gehaald. Zo verkregen we de onafhankelijke test dataset van 9951 eiwitten (Tabel 2). Alle gegevens zijn beschikbaar in de aanvullende bestanden.
Functionele domeinsamenstelling feature vector
Het gebruik van de functionele domeinsamenstelling om een eiwit weer te geven werd gemotiveerd door een reeks eerdere studies van eiwitten . Hier wordt het functionele domein gedefinieerd in de PFAM database, die een grote verzameling van meervoudige sequentie uitlijningen en verborgen Markov model (HMM) profielen voor veel voorkomende eiwitdomeinen en families bevat . De bepaling van domeingrenzen, familieleden en uitlijningen wordt semi-automatisch uitgevoerd op basis van kennis van deskundigen, sequentie-overeenkomst, HMM-profielen en andere eiwitfamiliedatabases . Er zijn toetredingsnummer links naar de PFAM database in de Swiss-Prot database . Daarom hebben we de PFAM domein annotatie in de Swiss-Prot database doorzocht voor deze 717 eiwitten, en alle soorten domeinen die ze bevatten genoteerd. De resultaten toonden aan dat ze in totaal uit 540 soorten domeinen bestonden. De functionele domeinsamenstelling van een eiwit kan dus worden gedefinieerd als een 540D (dimensionale) vector.
Voor een gegeven eiwit, als het het 11e domein in de geregistreerde domeinenlijst bevat, wordt aan de 11e component van het eiwit in de 540D functionele domeinruimte een 1 toegekend; anders een 0 . Het eiwit kan dus expliciet worden geformuleerd als
X = , MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbwvMCKfMBHbqedmvETj2BSbqee0evGueE0jxyaibaieYdOi=BH8vipeYdI8qiW7rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbbG8FasPYRqj0=yi0lXdbba9pGe9qqFf0dXdHuk9fr=xfr=xfrpiWZqaaeaabiGaaiaacaqabeaabeqacmaaaOqaaiaadIfacqGH9aqpdaWadaqaauaabeGageaaaaqaaiaadIhadaWgaaWcbaGaaGymaaqabaaakeaacaWG4bWaaSbaaSqaaiaaikdaaeqaaaGcbaGaeSO7I0eabaGaamiEamaaBaaaleaacaWGQbaabeaaaOqaaiabl6UinbqaaiaadIhadaWgaaWcbaGaaGynaiaaisdacaaIWaaabeaaaaaakiaawUfacaGLDbaacaGGSaaaaa@41A2@
waarbij x j = { 1 h i t , 0 o e d e r w i j z e . MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaacqWG4baEdaWgaaWcbaGaemOAaOgabeaakiabg2da9maaceaabaqbaeqabiGaaaqaaiabigdaXaqaaiabdIgaOjabdMgaPjabdsha0jabcYcaSaqaaiabicdaWaqaaiabd+gaVjabdsha0jabdIgaOjabdwgaLjabdkhaYjabdEha3jabdMgaPjabdohaZjabdwgaLjabc6caUaaaaiaawUhaaaaa@4634@
Daaruit volgt, met elk van de 540 functionele domeinen als basis, wordt een eiwit weergegeven door een 540D-vector.
Het Nearest Neighbor Algorithm
Het Nearest Neighbor Algorithm (NNA) vergelijkt de kenmerken van de onbekende nieuwe monsters met de kenmerken van de monsters die al zijn geclassificeerd, en deelt vervolgens de nieuwe monsters in bij de klasse waarin ze horen. De beslisregel van NNA wijst de categorie van de dichtstbijzijnde van een reeks eerder geclassificeerde monsters toe aan een ongeclassificeerd monster. Als de verdelingen en de categorieën van de monsters onbekend zijn, is NNA bijzonder nuttig. NNA is gemakkelijk toe te passen en heeft een lage foutkans. Het is dus een aantrekkelijke methode om in het bioinformatica-onderzoek te gebruiken.
Voorstel dat we n eiwitten krijgen (x 1 , x 2 , …, x n ), die in m categorieën zijn ingedeeld (c 1 , c 2 , …, c m ). De categorie waartoe een onbekend eiwit x behoort, kan dan worden voorspeld volgens het volgende NNA-principe. Ten eerste wordt de gegeneraliseerde afstand tussen x en x i (i = 1, 2, …, n) gedefinieerd als:
D ( x , x i ) = 1 – x ⋅ x i ‖ x ‖ ‖ x i ‖ ( i = 1 , 2 , … , n ) , MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaacqWGebarcqGGOaakcqWG4baEcqGGSaalcqWG4baEdaWgaaWcbaGaemyAaKgabeaakiabcMcaPiabg2da9iabigdaXiabgkHiTmaalaaabaGaemiEaGNaeyyXICTaemiEaG3aaSbaaSqaaiabdMgaPbqabaaakeaadaqbdaqaaiabdIha4bGaayzcSlaawQa7amaafmaabaGaemiEaG3aaSbaaSqaaiabdMgaPbqabaaakiaawMa7caGLkWoaaaGaeeiiaaccbaGae8hkaGIaemyAaKMaeyypa0JaeGymaeJaeiilaWIaeGOmaiJaeiilaWIaeiOla4IaeiOla4IaeiOla4IaeiilaWIaemOBa4Mae8xkaKccbiGae4hlaWcaaa@57BA@
waarbij x-x i het scalair product is van de vectoren x en x i . || x || en || x i || hun moduli zijn.
Wanneer x ≡ x i , D(x, x i ) = 0. Kortom, de gegeneraliseerde afstand ligt binnen het bereik van 0 en 1; d.w.z, D(x, x i ) ∈ .
Dan kan de naaste buur van x worden gedefinieerd als x k ,
waar
D ( x , x k ) = min i = 1 n D ( x , x i ) . MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaacqWGebarcqGGOaakcqWG4baEcqGGSaalcqWG4baEdaWgaaWcbaGaem4AaSgabeaakiabcMcaPiabg2da9maaxadabaGagiyBa0MaeiyAaKMaeiOBa4galeaacqWGPbqAcqGH9aqpcqaIXaqmaeaacqWGUbGBaaGccqWGebarcqGGOaakcqWG4baEcqGGSaalcqWG4baEdaWgaaWcbaGaemyAaKgabeaakiabcMcaPiabc6caUaaa@4820@
Volgens de NNA-regel, wordt voorspeld dat het gezochte eiwit x behoort tot de categorie c j ∈{c 1 , c 2 ,…., c m } als zijn naaste buur x k behoort tot de categorie c j ∈{c 1 , c 2 ,…, c m }.
De eiwitten in de trainingsdataset en de onafhankelijke testdataset waren allemaal gedefinieerd in de 540D functionele domeinsamenstelling, en vervolgens werd de NNA-voorspelling uitgevoerd op basis van de eiwitten in de trainingsdataset.