Los datos

En este tutorial usaré los conjuntos de datos del Rice SNP-Seek Database, el cual contiene información sobre genotipos de SNP y fenotipos de distintas variedades de arroz (Oryza sativa L.).

Descripción de los datos

Al realizar un análisis de componentes principales sobre los datos de genotipo, se observaron diferentes grupos varietales de arroz (Figure 1). La variedad indica fue la variedad seleccionada para llevar a cabo el estudio ya que fue el grupo varietal con mayor número de individuos genotipados (451 individuos de un total de 738).

Figure 1: Análisis de componentes principales en datos de arroz. Los puntos y las circuferencias de color representan los distintos grupos varietales disponibles: tipo intermedio o mezclado (ADM), aromático (ARO), aus (AUS), indica (IND) y japónica (JAP).

De entre los datos de fenotipos disponibles (Figure 2), se eligió el carácter tiempo de floración, ya que se observó que en este carácter la predicción genómica podría funcionar mejor. Estos datos fenotípicos se centraron (restando la media general) y estandarizaron (dividiendo por la desviación estándar).

Figure 2: Distribución de cada uno de los caracteres del conjunto de datos fenotípicos de arroz.

Control de calidad

Los datos fueron sometidos previamente a procedimientos de control de calidad, eliminando loci con una frecuencia del alelo menor inferior a 0.05 y con una tasa de ausencia mayor a 0.01, todo esto usando Plink (Purcell et al. 2007).

Luego de dicho control de calidad, el conjunto de datos resultante consistió de 100.231 SNP. A continuación podrá descargar los datos en formato variant call luego del control de calidad.

Datos VCF

Antes de realizar cualquier tipo de análisis, se debe verificar la calidad de los datos de genotipo. A esto se le conoce como control de calidad. Uno de los procedimientos de control de calidad que se llevó a cabo fue eliminar SNP de acuerdo a su tasa de ausencia, esto es, SNP que no están bien genotipados en toda la población. El otro procedimiento de control de calidad que se llevó a cabo fue la llamada frecuencia alélica menor, que es la proporción de ocurrencia del alelo que se presenta con menor frecuencia. Un umbral típico para ambos tipos de control de calidad oscilan entre 1 y 5%.

Referencia bibliográfica

Purcell, Shaun, Benjamin Neale, Kathe Todd-Brown, Lori Thomas, Manuel A. R. Ferreira, David Bender, Julian Maller, et al. 2007. “PLINK: A Tool Set for Whole-Genome Association and Population-Based Linkage Analyses.” The American Journal of Human Genetics 81 (3): 559–75. https://doi.org/10.1086/519795.