Articles

Classificação da estrutura quaternária das proteínas por composição do domínio funcional

Posted on

Sets de dados

Extraímos o comentário da subunidade para cada entrada na base de dados Swiss-Prot (versão 45.4) e depois usamos “Monomer”, “Homodimer”, “Homotrimer”, “Homotetramer”, “Homopentamer”, “Homohexamer”, “Homoheptamer”, e “Homooctamer” como palavras-chave para pesquisar as proteínas oligoméricas de cada categoria. Assim, foram recuperadas 16819 entradas. Como havia apenas uma proteína na classe “Homoheptamer”, esta foi removida. Portanto, havia 16818 proteínas em todo o conjunto de dados. As sequências de proteínas que continham caracteres irregulares de aminoácidos tais como “x” e “z” ou com um comprimento superior a 6000aa ou inferior a 50aa foram removidas. Além disso, as sequências redundantes em todo o conjunto de dados foram removidas pelo programa CD-HIT e PISCES, com um limiar de 25%. No total, obtivemos um total de 1665 proteínas. No entanto, no conjunto de dados de 1665 proteínas, 948 proteínas não eram adequadas para o método de extracção de características de composição de domínio funcional, porque ou não conseguiam obter resultados na base de dados PFAM ou pertenciam a classes diferentes com exactamente a mesma composição de domínio. Além disso, algumas proteínas eram “proteínas órfãs”, o que significa que nenhum dos domínios que continham era partilhado por outras proteínas no conjunto de dados. Consequentemente, o conjunto de dados de formação não redundante era composto por 717 proteínas, removendo ainda mais essas 948 proteínas (Quadro 1). Além disso, a fim de testar a eficácia do método de composição do domínio, construímos um conjunto de dados de teste independente. Todas as proteínas que contêm os domínios envolvidos no conjunto de dados de formação mas não estão nele foram extraídas de todo o conjunto de dados. Assim, obtivemos o conjunto de dados de testes independentes de 9951 proteínas (Tabela 2). Todos os dados estão disponíveis nos ficheiros adicionais.

Composição do domínio funcional vector

A utilização da composição do domínio funcional para representar uma proteína foi motivada por uma série de estudos anteriores de proteínas . Aqui, o domínio funcional é definido na base de dados PFAM, que contém uma grande colecção de alinhamentos de sequências múltiplas e perfis ocultos do modelo Markov (HMM) cobrindo muitos domínios e famílias de proteínas comuns . A determinação dos limites do domínio, dos membros da família e dos alinhamentos é realizada semiautomaticamente com base no conhecimento especializado, semelhança de sequências, perfis de HMM e outras bases de dados de famílias de proteínas . Existem ligações de números de adesão à base de dados PFAM na base de dados Swiss-Prot . Por conseguinte, pesquisámos a anotação do domínio PFAM na base de dados Swiss-Prot para estas 717 proteínas, e registámos todos os tipos de domínios que continham. Os resultados mostraram que consistiam totalmente em 540 tipos de domínios. Assim, a composição funcional do domínio de uma proteína pode ser definida como um vector 540D (dimensional).

Para uma dada proteína, se esta contiver o 11º domínio na lista de domínios registados, é atribuído 1 ao 11º componente da proteína no espaço funcional do domínio 540D; caso contrário, 0 . A proteína pode assim ser explicitamente formulada como

X = , MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbwvMCKfMBHbqedmvETj2BSbqee0evGueE0jxyaibaieYdOi=BH8vipeYdI8qiW7rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbbG8FasPYRqj0=yi0lXdbba9pGe9qqFf0dXdHuk9fr=xfr=xfrpiWZqaaeaabiGaaiaacaqabeaabeqacmaaaOqaaiaadIfacqGH9aqpdaWadaqaauaabeGageaaaaqaaiaadIhadaWgaaWcbaGaaGymaaqabaaakeaacaWG4bWaaSbaaSqaaiaaikdaaeqaaaGcbaGaeSO7I0eabaGaamiEamaaBaaaleaacaWGQbaabeaaaOqaaiabl6UinbqaaiaadIhadaWgaaWcbaGaaGynaiaaisdacaaIWaaabeaaaaaakiaawUfacaGLDbaacaGGSaaaaa@41A2@

onde x j = { 1 h i t , 0 o u t o r w i s e . MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaacqWG4baEdaWgaaWcbaGaemOAaOgabeaakiabg2da9maaceaabaqbaeqabiGaaaqaaiabigdaXaqaaiabdIgaOjabdMgaPjabdsha0jabcYcaSaqaaiabicdaWaqaaiabd+gaVjabdsha0jabdIgaOjabdwgaLjabdkhaYjabdEha3jabdMgaPjabdohaZjabdwgaLjabc6caUaaaaiaawUhaaaaa@4634@

Consequentemente, utilizando cada um dos 540 domínios funcionais como base, uma proteína é representada por um vector 540D.

O Algoritmo do Vizinho Mais Próximo

O Algoritmo do Vizinho Mais Próximo (NNA) compara as características das novas amostras desconhecidas com as características das amostras já classificadas, e depois, classifica as novas amostras na sua classe de membros . A regra de decisão do NNA atribui a categoria da amostra mais próxima de um conjunto de amostras previamente classificadas a uma amostra não classificada. Se as distribuições e as categorias das amostras forem desconhecidas, o NNA é particularmente útil. O NNA é fácil de implementar e tem uma baixa probabilidade de erro . Assim, é um método atractivo a ser empregado no estudo bioinformático .

P>Ponhamos que nos são dadas n proteínas (x 1 , x 2 , …, x n ), que foram classificadas em m categorias (c 1 , c 2 , …, c m ). Depois, a categoria a que pertence uma proteína x desconhecida pode ser prevista pelo seguinte princípio NNA. Primeiro, a distância generalizada entre x e x i (i = 1, 2, …, n) é definida como:

D ( x , x i ) = 1 – x ⋅ x i ‖ x ‖ x ‖ x i ‖ ( i = 1 , 2 , …, … , n ) , MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaacqWGebarcqGGOaakcqWG4baEcqGGSaalcqWG4baEdaWgaaWcbaGaemyAaKgabeaakiabcMcaPiabg2da9iabigdaXiabgkHiTmaalaaabaGaemiEaGNaeyyXICTaemiEaG3aaSbaaSqaaiabdMgaPbqabaaakeaadaqbdaqaaiabdIha4bGaayzcSlaawQa7amaafmaabaGaemiEaG3aaSbaaSqaaiabdMgaPbqabaaakiaawMa7caGLkWoaaaGaeeiiaaccbaGae8hkaGIaemyAaKMaeyypa0JaeGymaeJaeiilaWIaeGOmaiJaeiilaWIaeiOla4IaeiOla4IaeiOla4IaeiilaWIaemOBa4Mae8xkaKccbiGae4hlaWcaaa@57BA@

onde x-x i é o produto pontilhado dos vectores x e x i . || x ||| e ||| x i || são os seus moduli.

quando x ≡ x i , D(x, x i ) = 0. Em resumo, a distância generalizada está dentro do intervalo de 0 e 1; ou seja D(x, x i ) ∈ .

Então, o vizinho mais próximo de x pode ser definido como x k ,

onde

D ( x , x k ) = min i = 1 n D ( x , x i ) . MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaacqWGebarcqGGOaakcqWG4baEcqGGSaalcqWG4baEdaWgaaWcbaGaem4AaSgabeaakiabcMcaPiabg2da9maaxadabaGagiyBa0MaeiyAaKMaeiOBa4galeaacqWGPbqAcqGH9aqpcqaIXaqmaeaacqWGUbGBaaGccqWGebarcqGGOaakcqWG4baEcqGGSaalcqWG4baEdaWgaaWcbaGaemyAaKgabeaakiabcMcaPiabc6caUaaa@4820@

De acordo com a regra do NNA, a proteína de consulta x é prevista como pertencente à categoria c j ∈{c 1 , c 2 ,…., c m } se o seu vizinho mais próximo x k pertence à categoria c j ∈{c 1 , c 2 ,…, c m }.

As proteínas no conjunto de dados de formação e no conjunto de dados de testes independentes foram todas definidas na composição do domínio funcional 540D, e depois a previsão do NNA foi feita com base nas proteínas do conjunto de dados de formação.

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *