Análisis de datos de la NGS - Labster Theory

Ahora que hemosSecuenciadola muestra de ADN, tenemos que analizar los datos obtenidos. Los datos de las imágenes en bruto (imágenes de los nucleótidos marcados con fluoróforos) son muy grandes; ¡pueden llegar a ocupar 1 terabyte! La máquina de secuenciación permite procesar los datos con tal de reducir el tamaño del archivo. El proceso de análisis de datos para la secuenciación de nueva generación puede dividirse en tres pasos:

Análisis primario

El análisis primario incluye todos los pasos necesarios para identificar cada base. Además de identificar las bases, la máquina de secuenciación también asignará una puntuación de calidad a cada una de las bases. El resultado se almacena como un archivo FASTQ (ver imagen), que contiene los identificadores de la secuencia, los nucleótidos asignados (A, G, T o C), que también se denominan «lecturas», y la puntuación de calidad Phred asociada. Cuando el carácter «N» está asociado a un nucleótido, eso significa que la máquina no puede determinar el nucleótido exacto. La puntuación de calidad Phred se refiere a la probabilidad de una identificación de base incorrecta. El análisis primario suele realizarse automáticamente en la máquina de secuenciación después de cada ejecución.

Análisis secundario

Elanálisissecundario se realizadespuésdelanálisisprimario。para secuenciar varias muestras juntas en una mismaejecución（por ejemplo，de diferentes pacientes o diferentes persimentes）se puede asignar una una extiqueta especietaespecíficficeficaa cada una una de ellas。La Etgiqueta，TambiénConocidacomoCódigode Barras，Es una secuencia corta de adn que seañadeal adaptador para diferenciar diferenciar las las lecuras decada de cada Muestra。esta EtiquetatambiénSeSecuencia，Y al标识者secuenciaespecíficaddel adaptador para cada muestra，se pueden sysyar unas de otras。EstoTambiénse LlamaMultelexacióny Tiene la Gran gran ventaja de reducir el Coste de lasecuenciación和Proporcionar una una una muestramásgrande。El Primer paso que que que hacer antes de realizar elanálisissecundario es Recortar la eTiqueta y los adaptadores，ya que estas secuencias notienen ningunnotienenningún显着性Biológico。

El objetivo主要德尔分析secundario es ensamblar todas las secuencias cortas de ADN (también llamadas lecturas) para interpretar los datos de la secuencia. Antes de este reensamblaje, las lecturas en bruto de la máquina suelen evaluarse y filtrarse según su calidad con el fin de obtener los mejores resultados. Las lecturas con puntuaciones de calidad Phred bajas deben eliminarse y hay que recortar los adaptadores. Cuando el reensamblaje se realiza desde cero sin ningún genoma de referencia, se denomina ensamblaje de novo. En cambio, cuando se dispone de un genoma de referencia, el proceso es mucho más sencillo porque podemos simplemente alinear todas las lecturas con el genoma de referencia.

Normalmente tenemos varias lecturas que mapean la misma zona del genoma; esto se suele denominar profundidad de lectura. La profundidad de lectura mide el número de veces que un área determinada está cubierta por diferentes lecturas. Por ejemplo, una profundidad de lectura de diez implica que hay diez lecturas mapeadas una encima de otra en la misma área genómica.

Análisisterciario

El análisis terciario es necesario para comprender y dar sentido al resultado de la secuenciación. Incluye la identificación de variantes y el análisis propiamente dicho (por ejemplo, el perfil de SNP, el estudio de asociación de todo el genoma, la búsqueda de anomalías cromosómicas y otros).

ladissinificacióndevariantes es e proceso de con conprecisiónlasvariaciones（o diferencias）intre una una una una muestra y el genoma de ceptrencia。ESTAS PUEDEN SER eN eN forma de variantes de un solonucleótido，secterciones o decionesmásPequeñas（llamadas indels），o variantes centructeres extructures m s grandes grandes decorizaciones como como como como como como como como copias y variantes y variantes denúmerode copias。

存在variacionesespecíficasque soncaracterísticasde lasmuestras de ADN antiguo，por ejemplo la de c> t en el oxtremo 5'y y g> a en el oxtremo 3'。gracias a estascaracterísticas，podemos识别剂el adn antiguo y sapearlo para evitar evitar que污染物El Adn Moderno。

una vez sidentificadas las variaciones提出了en la muestra，podemos analizar e intentar comprender el Impact el Impactbiológicode estas variaciones，por ejemplo，eyjemplo，realizando unanálisisde snp。la diferencia en unnucleótidopuede dar lugar a unaexpresióngénicadiferencialquedélugara un fenotipoespecíficficefico;PUEDES咨询员Algunos ejemplos de snp en el aquartadoSNP del hombre primitivo groenladés.