Entradas populares

lunes, 25 de octubre de 2010

Introducción a los algoritmos de alineamiento de secuencias

En este artículo presentamos una breve visión general de los algoritmos de alineamiento de secuencias, dentro de los cuales esta BLAST, en la segunda parte del artículo esta una descripción de las nuevas técnicas que incluye el uso de bases de datos, tal como lo hace el algoritmo al cual esta dedicado este blog.


ALINEAMIENTO DE SECUENCIAS
El alineamiento de secuencias biológicas consiste en establecer un segmento entre ellas donde el número de coincidencias (una coincidencia se presenta cuando el nucleótido de la secuencia A sea igual al nucleótido en la secuencia B) sea máximo. Cuando se analizan secuencias es común utilizar los términos similitud y homología de forma indiscriminada, pero estos dos términos hacen referencia a conceptos distintos.
SIMILITUD: Es el resultado del análisis (observación cuantitativa) de la estructura primaria de dos o más secuencias; la secuencias pueden ser ácidos nucleicos o proteínas. Puesto que la similitud es obtenida de observar las secuencias no puede ser tomada como un indicador para establecer la relación biológica (descendencia) entre las secuencias, ya que el grado de similitud puede deberse a cambios aleatorios acumulados en las secuencias a través del tiempo.
HOMOLOGÍA: La homología es una medida cualitativa entre las secuencias se presenta cuando la similitud que estás tienen es atribuible a razones evolutivas y no al azar, es decir, la homología establece regiones entre las secuencias que se han connservado con el tiempo.
La similitud es el resultado de una medida cuantitativa, la homología es una hipótesis postulada por el investigador basandose en la similitud de las secuencias y en otros datos biológicos que previamente conozca sobre el origen de dichas secuencias. Es permitido establecer el porcentaje se similitud de dos o más secuencias, pero esto no es posible para la homología, ya que las secuencias son o no son homólogas.
El alineamiento se puede clasificar por:
  1. Número de secuencias analizadas:
    1. Alineamiento de un par de secuencias: Este método recibe dos secuencias y encuentra el segmento mejor alineado entre ellas.
    2. Alineamiento múltiple: Este método trabaja sobre muchas secuencias y el resultado que obtiene es una secuencia concenso, esta secuencia concenso tiene en cada posición el nucleótido o el aminoácido en caso de las proteínas, que más se ha conservado en esa posición en todas la secuencias estudiadas.
  2. Nivel de análisis:
    1. Alineamiento global: Consiste en buscar subsecuencias grandes que coincidan en las secuencias bajo estudio.
    2. Alineamiento local: Consiste en buscar las coincidencias nucleótido a nucleótido (ácidos nucleicos) o aminoácido a aminoácido (proteínas
BASES DE DATOS DE SECUENCIAS BIOLÓGICAS
Los avances en las ténicas de secuenciamiento automático de genomas han generado una gran cantidad de información de secuencias de ácidos nucleicos y aminoácidos, esta información se ha ido almacenado en bases de datos internacionales (a excepción de la compañia Celera Genomics la cual ha implementado su propia base de datos) a las cuales los investigadores tienen acceso.
Existen dos grandes bases de datos internacionales para secuencias de ADN, las cuales son:
  • GenBank en NCBI (National Center for Biotechnology Information de los Estados Unidos) está base de datos provee al investigador una interface para alinear la secuencia que el desee contra las existentes en la bases de datos, este alineamiento se realiza utilizando un algoritmo desarrollado en 1990 por Stephen F. Altschul, Warren Gish, Webb Miller, Gene Myesrs y David Lipman denominado BLAST (Basic Local Alignment Search Tool)..
  • EMBL en el European Bioinformatics Institute de Europa, también ofrece la posibilidad de alinear secuencias, pero para esto utiliza el algoritmo de FASTA. FASTA es una algoritmo heurístico desarrollado por David Lipman y William Pearson en 1985.
Además existen otras dos grandes bases pero destinadas a secuencias de proteínas:

No hay comentarios:

Publicar un comentario