Articles

Clasificación de la estructura cuaternaria de la proteína por la composición del dominio funcional

Posted on

Conjuntos de datos

Extrajimos el comentario de la subunidad para cada entrada en la base de datos Swiss-Prot (versión 45.4) y luego utilizamos «Monomer», «Homodimer», «Homotrimer», «Homotetramer», «Homopentamer», «Homohexamer», «Homoheptamer» y «Homooctamer» como palabras clave para buscar las proteínas oligoméricas de cada categoría. Así, se recuperaron 16819 entradas. Como sólo había una proteína en la clase «Homoheptamer», se eliminó. Por lo tanto, había 16818 proteínas en todo el conjunto de datos. Se eliminaron las secuencias de proteínas que contenían caracteres de aminoácidos irregulares como «x» y «z» o con una longitud superior a 6000aa o inferior a 50aa. Además, las secuencias redundantes en el conjunto de datos fueron eliminadas por el programa CD-HIT y PISCES, con un umbral del 25%. En total, obtuvimos 1665 proteínas. Sin embargo, en el conjunto de datos de 1665 proteínas, 948 proteínas no eran adecuadas para el método de extracción de características de composición de dominios funcionales, porque o bien no podían obtener resultados en la base de datos PFAM o pertenecían a diferentes clases con exactamente la misma composición de dominios. Además, algunas proteínas eran «proteínas huérfanas», lo que significa que ninguno de los dominios que contenían era compartido por otras proteínas del conjunto de datos. En consecuencia, el conjunto de datos de entrenamiento no redundante se compuso de 717 proteínas al eliminar esas 948 proteínas (Tabla 1). Además, para comprobar la eficacia del método de composición de dominios, construimos un conjunto de datos de prueba independiente. Todas las proteínas que contienen los dominios implicados en el conjunto de datos de entrenamiento, pero que no están en él, se extrajeron de todo el conjunto de datos. Así, obtuvimos el conjunto de datos de prueba independiente de 9951 proteínas (Tabla 2). Todos los datos están disponibles en los archivos adicionales.

Vector de características de composición de dominios funcionales

El uso de la composición de dominios funcionales para representar una proteína fue motivado por una serie de estudios previos de proteínas . Aquí, el dominio funcional se define en la base de datos PFAM, que contiene una gran colección de alineaciones de secuencias múltiples y perfiles de modelos de Markov ocultos (HMM) que cubren muchos dominios y familias de proteínas comunes . La determinación de los límites de los dominios, de los miembros de la familia y de los alineamientos se realiza de forma semiautomática basándose en el conocimiento de los expertos, la similitud de las secuencias, los perfiles HMM y otras bases de datos de familias de proteínas . En la base de datos Swiss-Prot hay enlaces con números de acceso a la base de datos PFAM. Por lo tanto, buscamos la anotación de dominios PFAM en la base de datos Swiss-Prot para estas 717 proteínas, y registramos todos los tipos de dominios que contenían. Los resultados mostraron que constaban totalmente de 540 tipos de dominios. Así, la composición de dominios funcionales de una proteína puede definirse como un vector (dimensional) de 540D.

Para una proteína dada, si contiene el 11º dominio en la lista de dominios registrada, se asigna 1 al 11º componente de la proteína en el espacio de dominios funcionales de 540D; en caso contrario, 0 . La proteína puede así formularse explícitamente como

X = , MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbwvMCKfMBHbqedmvETj2BSbqee0evGueE0jxyaibaieYdOi=BH8vipeYdI8qiW7rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbbG8FasPYRqj0=yi0lXdbba9pGe9qqFf0dXdHuk9fr=xfr=xfrpiWZqaaeaabiGaaiaacaqabeaabeqacmaaaOqaaiaadIfacqGH9aqpdaWadaqaauaabeGageaaaaqaaiaadIhadaWgaaWcbaGaaGymaaqabaaakeaacaWG4bWaaSbaaSqaaiaaikdaaeqaaaGcbaGaeSO7I0eabaGaamiEamaaBaaaleaacaWGQbaabeaaaOqaaiabl6UinbqaaiaadIhadaWgaaWcbaGaaGynaiaaisdacaaIWaaabeaaaaaakiaawUfacaGLDbaacaGGSaaaaa@41A2@

Donde x j = { 1 h i t , 0 o t r o s c o n t r o l e s . MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaacqWG4baEdaWgaaWcbaGaemOAaOgabeaakiabg2da9maaceaabaqbaeqabiGaaaqaaiabigdaXaqaaiabdIgaOjabdMgaPjabdsha0jabcYcaSaqaaiabicdaWaqaaiabd+gaVjabdsha0jabdIgaOjabdwgaLjabdkhaYjabdEha3jabdMgaPjabdohaZjabdwgaLjabc6caUaaaaiaawUhaaaaa@4634@

En consecuencia, utilizando cada uno de los 540 dominios funcionales como base, una proteína es representada por un vector 540D.

El Algoritmo del Vecino más Cercano

El Algoritmo del Vecino más Cercano (NNA) compara las características de las nuevas muestras desconocidas con las características de las muestras que ya han sido clasificadas, y luego, clasifica las nuevas muestras en su pertenencia de clase . La regla de decisión de NNA asigna a una muestra no clasificada la categoría de la más cercana de un conjunto de muestras previamente clasificadas. Si se desconocen las distribuciones y las categorías de las muestras, NNA es especialmente útil. El NNA es fácil de implementar y tiene una baja probabilidad de error. Por lo tanto, es un método atractivo para ser empleado en el estudio bioinformático .

Supongamos que se nos dan n proteínas (x 1 , x 2 , …, x n ), que han sido clasificadas en m categorías (c 1 , c 2 , …, c m ). Entonces, la categoría a la que pertenece una proteína desconocida x puede predecirse mediante el siguiente principio de NNA. En primer lugar, la distancia generalizada entre x y x i (i = 1, 2, …, n) se define como:

D ( x , x i ) = 1 – x ⋅ x i ‖ x ‖ ( i = 1 , 2 , … , n ) , MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaacqWGebarcqGGOaakcqWG4baEcqGGSaalcqWG4baEdaWgaaWcbaGaemyAaKgabeaakiabcMcaPiabg2da9iabigdaXiabgkHiTmaalaaabaGaemiEaGNaeyyXICTaemiEaG3aaSbaaSqaaiabdMgaPbqabaaakeaadaqbdaqaaiabdIha4bGaayzcSlaawQa7amaafmaabaGaemiEaG3aaSbaaSqaaiabdMgaPbqabaaakiaawMa7caGLkWoaaaGaeeiiaaccbaGae8hkaGIaemyAaKMaeyypa0JaeGymaeJaeiilaWIaeGOmaiJaeiilaWIaeiOla4IaeiOla4IaeiOla4IaeiilaWIaemOBa4Mae8xkaKccbiGae4hlaWcaaa@57BA@

Donde x-x i es el producto punto de los vectores x y x i . || x || y || x i || son sus módulos.

Cuando x ≡ x i , D(x, x i ) = 0. En resumen, la distancia generalizada está dentro del rango de 0 y 1; es decir, D(x, x i ) ∈ .

Entonces, el vecino más cercano de x puede definirse como x k ,

donde

D ( x , x k ) = min i = 1 n D ( x , x i ) . MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaacqWGebarcqGGOaakcqWG4baEcqGGSaalcqWG4baEdaWgaaWcbaGaem4AaSgabeaakiabcMcaPiabg2da9maaxadabaGagiyBa0MaeiyAaKMaeiOBa4galeaacqWGPbqAcqGH9aqpcqaIXaqmaeaacqWGUbGBaaGccqWGebarcqGGOaakcqWG4baEcqGGSaalcqWG4baEdaWgaaWcbaGaemyAaKgabeaakiabcMcaPiabc6caUaaa@4820@

Según la regla NNA, la proteína de consulta x se predice como perteneciente a la categoría c j ∈{c 1 , c 2 ,…, c m } si su vecino más cercano x k pertenece a la categoría c j ∈{c 1 , c 2 ,…, c m }.

Las proteínas del conjunto de datos de entrenamiento y del conjunto de datos de prueba independiente se definieron todas en la composición de dominios funcionales 540D, y luego se realizó la predicción NNA basada en las proteínas del conjunto de datos de entrenamiento.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *