Estudiante: Jorge Leonardo López Martínez
Director: Miguel Pérez-Enciso
El BLUP es un método que se utiliza para predecir el valor genético de un individuo. Para ello, se usa una matriz de parentesco estimada a partir de la información del pedigrí1.
En la matriz A, los elementos fuera de la diagonal indican la relación entre individuos2.
El parentesco que proviene al usar la matriz A es un parentesco esperado, lo cual no refleja el porcentaje real de genes idénticos entre individuos emparentados1.
[1] Blasco (2021).
La matriz G del GBLUP define la covarianza entre individuos en función de la similitud observada a nivel genómico, permitiendo con esto predicciones más precisas del valor genético1,2.
El GBLUP es un método de varios pasos, con una evaluación genética con BLUP, seguidos de la extracción de pseudofenotipos, un análisis genómico y la creación de un índice que combina esta información3.
La selección genómica son una serie de métodos que usan numerosos marcadores de ADN, para predecir los valores genéticos:
Se considera que este proceso (de múltiples pasos) es poco eficiente, relativamente complicado y con algunos inconvenientes:
Pueden existir individuos con fenotipos y pseudofenotipos.
Las precisiones de los pseudofenotipos son difíciles de obtener.
La creación de pseudofenotipos puede ser ineficaz si los individuos tienen poca descendencia.
En el ssGBLUP, los fenotipos de los individuos genotipados y no genotipados se analizan conjuntamente para predecir los valores genéticos, a partir de la matriz H1.
El ssGBLUP es un método de uso rutinario para la selección genómica, donde ha demostrado que produce una predicción más precisa en comparación a los métodos BLUP y GBLUP2.
Conociendo que la matriz H equivale a:
El desarrollo de las ecuaciones que conducen a la matriz H y su posterior uso dentro de las ecuaciones del modelo mixto se explican a continuación.
Partiendo de un modelo GBLUP en el que no se incluyen efectos fijos, y=Zg+e, un modelo en el cual se incluyen tanto individuos genotipados como no genotipados puede ser de la forma:
y=Z[g1g2]+e,
donde g1 corresponde a los individuos no genotipados, y g2 a los individuos genotipados. Esto es, el vector efectos del marcador en el fenotipo o valores de cría ( g ) es dividido en dos partes, una con los valores de cría de los individuos no genotipados ( g1 ) y otra con los valores de cría de los individuos genotipados ( g2 ).
Para estimar el parentesco genómico de los individuos no genotipados, sus valores de cría ( g1 ) se predicen a partir de los valores de cría de los individuos que si lo están ( g2 ), con base en la expresión:
g1=cov(g1,g2)×[var(g2]−1×g2+e
Sabiendo que la matriz de parentesco en base al pedigrí ( A ) puede descomponerse como [A11A12A21A22], donde A11 y A22 corresponden, respectivamente, a las matrices de parentesco en base al pedigrí de los individuos no genotipados y genotipados (o bien, la varianza de sus respectivos valores de cría), y A12 = A21 corresponden a la matriz de parentesco en base al pedigrí entre individuos genotipados y no genotipados (o bien, la covarianza de sus valores de cría), la expresión anterior puede reescribirse de la siguiente forma:
g1=A12A−122g2+e
Luego la expresión anterior en términos de varianza:
var(g1)=var(A12A−122g2)+var(e)
Con un poco de algebra, finalmente la expresión correspondiente a var(g1) es:
var(g1)=A11+A12A−122(G−A22)A−122A21
En relación a la expresión var(g2), ésta sería igual a:
var(g2)=G
Por último, la expresión cov(g1,g2), equivaldría a:
cov(g1,g2)=cov(A12A−122g2+e,g2)
Qué con un poco de algebra, equilvaldría a:
cov(g1,g2)=A12A−122G
Finalmente, la matriz que contiene las relaciones conjuntas de individuos genotipados y no genotipados sería:
Una vez obtenida la matriz H, se obtiene su inversa ( H−1 ), y el modelo de selección genómica se puede resolver mediante un modelo lineal mixto:
Evaluar el interés de la selección genómica en un solo paso en plantas. Para ello, se evaluó el efecto de la cantidad de individuos genotipados y del número de marcadores en un diseño que combinó datos reales de arroz y simulaciones de dos tipos, hacia atrás (ancestral) y hacia delante (descendientes).
Recurso vegetal y datos fenotípicos
Se usaron los conjuntos de datos del Rice SNP-Seek Database, editados en un estudio previo1. Adicionalmente, se consideró un MAF inferior a 0.05.
Arroz (Oryza sativa L.) |
---|
Ploidía → 2n = 24 |
No. SNP → 100.231 |
Se eligió la variedad Indica y el carácter tiempo de floración.
Predicción basada en información de pedigrí e información genómica
El modelo general fue:
y=μ+Zg+e
Los supuestos del modelo son:
BLUP → g ~ N(0,Aσ2g)
ssGBLUP → g ~ N(0,Hσ2g)
La matriz H fue construida como:
La matriz G se obtuvo a partir del método de VanRaden (2007):
G=XX′2∑nSNPj=1pj(1−pj)
Precisión de la predicción mediante simulación ancestral
Se utilizó la metodología del software Molcoanc1 con el fin de construir tres pedigríes.
Pedigrí | Núm. de individuos |
---|---|
Pedigrí 1 | 300 + 451 = 751 |
Pedigrí 2 | 1210 + 451 = 1661 |
Pedigrí 3 | 2000 + 451 = 2451 |
Este proceso se replicó diez veces para cada pedigrí.
Precisión de la predicción mediante simulación ancestral
Se uso la cor(y,ˆy) como medida de predictibilidad, en 48 individuos.
Se usaron diferentes subconjuntos de datos con la siguientes características:
a) Distinta cantidad de individuos genotipados.
100 + 48 = 148 | 250 + 48 = 298 | 451 |
---|
b) Diferentes densidades de marcadores.
1.000 | 10.000 | 100.000 |
---|
Precisión de la predicción mediante simulación ancestral
Precisión de la predicción mediante simulación ancestral
Se usaron los paquetes BGLR
1 y lme4GS
2 del R
para predecir los valores fenotípicos, permitiendo así la predicción mediante procedimientos Bayesianos y REML.
Precisión de la predicción mediante simulación de descendientes
Se generaron cuatro pedigríes, cada uno de ellos con esquemas de cruzamiento diferentes partiendo de la población fundadora con 451 individuos.
Pedigrí 1 | Pedigri 2 | Pedigrí 3 | Pedigrí 4 | |
---|---|---|---|---|
F0 | 451 | 451 | 451 | 451 |
F1 | 10 | 20 | 40 | 80 |
F2 | 800 (10x80) | 800 (20x40) | 800 (40x20) | 800 (80x10) |
F3 | 800 (800x1) | 800 (800x1) | 800 (800x1) | 800 (800x1) |
Total | 2.061 | 2.071 | 2.091 | 2.131 |
10 es el número de descendientes que tendrían los 451 individuos de la generación F0 mediante cruzamiento.
10x80 es el número de descendientes (80) que tendrían cada uno de los 10 individuos de la generación F1 por autofecundación.
800x1 es el número de descendientes (1) que tendrían cada uno de los 800 individuos de la generación F2 por autofecundación.
Este proceso se replicó diez veces para cada pedigrí.
Precisión de la predicción mediante simulación de descendientes
Se realizó un GWAS usando el software GCTA1, con el fin de generar los datos que indicaban el efecto de los QTN y su localización, y se seleccionaron 50 de ellos.
Se utilizó el módulo de Python
SeqBreed
2 para simular los fenotipos y genotipos en base a los QTN seleccionados.
SeqBreed permite la simulación de cualquier número de rasgos fenotípicos, independientemente de la ploidía. Para cada carácter, se debe especificar la heredabilidad en sentido amplio. Una opción para especificar el número de QTN y sus efectos consiste en especificar esto para cada carácter en un archivo externo. El valor genotípico para el individuo i se define como:
gi=nQTN∑j=1γijaj+nQTN∑j=1δijdj,
donde nQTN es el número de QTN, aj es el efecto aditivo del j-ésimo QTN, es decir, la mitad de la diferencia esperada entre genotipos homocigotos, con γij tomando los valores − 1, 0 y 1 para genotipos homocigotos, heterocigotos y homocigotos alternativos, respectivamente, dj es el efecto de dominancia del j-ésimo QTN, con δij tomando el valor 1 si el genotipo es heterocigoto y 0 en caso contrario.
SeqBreed calcula valores genotípicos para cada individuo y simula fenotipos con base en la expresión yi=μ+gi+ei, donde μ es es la media (una constante), gi es el genotipo del individuo, y e es el error.
Precisión de la predicción mediante simulación de descendientes
Se utilizó el módulo de Python
SeqBreed
1 para predecir los valores fenotípicos.
Se usaron diferentes subconjuntos de datos con la siguientes características:
a) Distinta cantidad de individuos genotipados.
Ninguno | F1 | F1-F2 | F0-F1-F2-F3 |
---|
b) Diferentes densidades de marcadores.
0 | 1.000 | 10.000 | 100.000 |
---|
Se uso la cor(y,ˆy) como medida de predictibilidad, en individuos F2 y F3.
Precisión de la predicción mediante simulación ancestral
Para la estimación de los componentes de varianza y la predicción de los valores genéticos utilizando el BLUP (o GBLUP o ssGBLUP) se pueden emplear métodos REML y Bayesianos.
En el REML se obtiene un estimador puntual que representa el valor con probabilidad máxima. En los análisis de este estudio, la estima de heredabilidad (mediante el BLUP) usando REML en los tres pedigríes simulados de forma ancestral sería:
Parámetro | REML | ||
---|---|---|---|
Ped. 11 | Ped. 2 | Ped. 3 | |
Varianza aditiva | 0.47 | 0.50 | 0.56 |
Varianza ambiental | 0.12 | 0.13 | 0.11 |
Heredabilidad | 0.80 | 0.79 | 0.84 |
1
Ped. 1 indica Pedigrí 1
|
Por otro lado, los métodos Bayesianos usan la Cadena de Markov Monte Carlo (MCMC) y tomar muestras sucesivamente de las distribuciones condicionales de todos los parámetros de un modelo para generar una muestra aleatoria de la distribución posterior marginal, que es el objetivo de la inferencia Bayesiana. En los análisis de este estudio, dicha distribución posterior marginal sería:
Precisión de la predicción mediante simulación de descendientes
Precisión de la predicción mediante simulación de descendientes
Ganancia en precisión de 0 a 1.000 marcadores: 0.4 - 4.0%
Ganancia en precisión de 0 a 10.000 marcadores: 0.9 - 8.7%
Ganancia en precisión de 0 a 100.000 marcadores: 0.7 - 9.0%
Genotipados | Precisión |
---|---|
Densidad del marcador de 1.000 | |
F2 | 0.580 |
F1-F2 | 0.582 |
F0-F1-F2-F3 | 0.597 |
Densidad del marcador de 10.000 | |
F2 | 0.582 |
F1-F2 | 0.583 |
F0-F1-F2-F3 | 0.627 |
Densidad del marcador de 100.000 | |
F2 | 0.581 |
F1-F2 | 0.583 |
F0-F1-F2-F3 | 0.629 |
Ninguno | 0.577 |
Aunque a mayor cantidad de marcadores mejor será la precisión de la predicción1, se demostró que por encima de cierta densidad es difícil mejorar la precisión.
Es difícil determinar el número ideal de individuos genotipados debido a que esto suele tener un costo alto2.
Especie | Densidad de marcador | Referencia |
---|---|---|
Bovino | 3.000 (38.082)1 | Li, Zhang, Wang et al. (2018) |
Trigo | 5.000 (17.181) | Norman, Taylor, Edwards et al. (2018) |
Bovino | 10.000 (667.954) | Zhu, Zhang, Niu et al. (2017) |
Camaron | 3.200 (23.000) | Wang, Yu, Yuan et al. (2017) |
Eucalipto | 5.000 (41.304) | Tan, Grattapaglia, Salgado-Martins et al. (2017) |
Arroz | 7.142 (73.147) | Spindel, Begum, Akdemir et al. (2015) |
1
El valor entre paréntesis es la densidad total.
|
Si los SNPs son solo marcadores ubicados fuera de las regiones génicas, la mayoría de las veces, ¿por qué usarlos? Debido a que pueden estar asociados a QTL o genes, hecho que puede explicarse por un evento llamado desequilibrio de ligamiento (LD).
Se pueden usar SNP para deducir el genotipo de los individuos en cada QTL no observado. Al tener paneles SNP densos (por ejemplo, 50.000 SNP), es más probable que el QTL esté en LD con al menos un SNP. Si el QTL A está ligado al SNP B, dependiendo de la fuerza de esta asociación, una vez que se observe el SNP B, implicará que se hereda junto al QTL A. De esta forma, la selección genómica se basa en el LD entre el SNP y el QTL, y aunque no observamos el QTL, se puede observar una asociación indirecta entre el SNP y el QTL:
Especie | Precisión | Referencia | |
---|---|---|---|
BLUP | ssGBLUP | ||
Cítrico | 5.0% | 5.4% | Imai, Kuniga, Yoshioka et al. (2019) |
Árbol | 4.7% | 5.0-5.4%1 | Ratcliffe, El-Dien, Cappa et al. (2017) |
Gallina | 2.2% | 4.3% | Lourenco, Fragomeni, Tsuruta et al. (2015) |
1
En 25-50-75-100% de individuos genotipados.
|
El aumento en la precisión de la predicción se debe a que, a diferencia del ssGBLUP, el BLUP asume una relación promedio de cero entre individuos fundadores1, e ignora el término del muestreo Mendeliano2,3.
El valor genético de un individuo tiene tres componentes: (i) el valor genético del padre, (ii) el valor genético de la madre y, (iii) el término del muestreo Mendeliano. El valor genético del padre y el valor genético de la madre hacen referencia a que cada individuo recibe la mitad de sus genes de su padre y la otra mitad de su madre. Sin embargo, el padre y la madre no transmiten los mismos genes a su descendecia, sino que esto en un factor de azar, llamado también como término del muestreo Mendeliano. Por tanto, el término del muestreo Mendeliano indica el factor de azar en la distribución de la mitad del material genético de cada progenitor a su descendencia.
La siguiente figura representa las fuentes de información utilizadas (áreas sombreadas) y sus proporciones antes y después de la selección (es decir, la selección reduce la varianza entre familias) cuando se utiliza el BLUP y la predicción del genoma completo (GWP) para predecir el valor genético estimado de un recién nacido sin registro fenotípico. AS es el valor genético del padre, AD es el valor genético de la madre y aj es el término de muestreo mendeliano.
Figura adaptada de Daetwyler, Villanueva, Bijma, and Woolliams(2007).
La información sobre antepasados y parientes colaterales aumenta la precisión al agregar directamente precisión en los dos primeros de estos componentes. La precisión del término de muestreo Mendeliano se puede aumentar utilizando el registro fenotípico de un individuo o la información de la progenie. En la práctica, la mayoría de los esquemas de selección BLUP aumentan la precisión al capturar información adicional sobre los antepasados y los parientes colaterales, porque la información sobre la descendencia a menudo no está disponible en el momento de la selección. Por el contrario, GWP utiliza más el término del muestreo Mendeliano.
El uso combinado de información genómica y de pedigrí en la mejora genética del arroz, mejora la precisión de la predicción genómica.
Se obtuvo una buena precisión de la predicción genómica utilizando densidades bajas de marcadores; esto permitirá que la selección genómica para el carácter tiempo de floración en arroz, mediante el ssGBLUP, pueda realizarse con información de genotipos a bajo costo.
Blasco, A. (2021). Mejora genética animal. 1st edition. EDITORIAL SÍNTESIS, S. A, p. 206. ISBN: 978-84-1357-116-4.
Caamal-Pat, D., P. Pérez-Rodríguez, J. Crossa, et al. (2021). "lme4GS: An R-package for genomic selection". In: Genetics 12. DOI: 10.3389/fgene.2021.680569.
Clark, S. A. and J. van der Werf (2013). "Genomic best linear unbiased prediction (gBLUP) for the estimation of genomic breeding values". In: Methods in Molecular Biology 1019, pp. 321-330. DOI: 10.1007/978-1-62703-447-0_13.
Fernández, J. and M. Á. Toro (2006). "A new method to estimate relatedness from molecular markers". In: Molecular Ecology 15, p. 1657–1667.
Hidalgo, J., D. A. L. Lourenco, S. Tsuruta, et al. (2021). "Investigating the persistence of accuracy of genomic predictions over time in broilers". In: Journal of Dairy Science 99.9, pp. 1-10. DOI: doi.org/10.1093/jas/skab239.
Imai, A., T. Kuniga, T. Yoshioka, et al. (2019). "Single-step genomic prediction of fruit-quality traits using phenotypic records of non-genotyped relatives in citrus". In: PLoS ONE 14.8. DOI: 10.1371/journal.pone.0221880.
Karimi, K., M. Sargolzaei, G. S. Plastow, et al. (2018). "Effect of hidden relatedness on single-step genetic evaluation in an advanced open-pollinated breeding program". In: Journal of Heredity, p. 802–810. DOI: 10.1093/jhered/esy051.
Legarra, A., I. Aguilar, and I. Misztal (2009). "A relationship matrix including full pedigree and genomic information". In: Journal of Dairy Science 92, p. 4656–4663. DOI: 10.3168/jds.2009-2061.
Li, B., N. Zhang, Y. G. Wang, et al. (2018). "Genomic prediction of breeding values using a subset of SNPs identified by three machine learning methods". In: Frontiers in genetics 9, p. 237. DOI: 10.3389/fgene.2018.00237.
Lourenco, D. A. L., B. O. Fragomeni, S. Tsuruta, et al. (2015). "Accuracy of estimated breeding values with genomic information on males, females, or both: an example on broiler chicken". In: Genetics Selection Evolution 47.56. DOI: 10.1186/s12711-015-0137-1.
Misztal, I., S. E. Aggrrey, and W. M. Muir (2012). "Experiences with a single-step genome evaluation". In: Poultry Science 92, p. 2530–2534.
Misztal, I., D. A. L. Lourenco, and A. Legarra (2020). "Current status of genomic evaluation". In: Journal of Animal Science 98.4, p. 1–14. DOI: 10.1093/jas/skaa101.
Norman, A., J. Taylor, J. Edwards, et al. (2018). "Optimising genomic selection in wheat: effect of marker density, population size and population structure on prediction accuracy". In: G3 Genes|Genomes|Genetics 8, p. 2889–2899. DOI: 10.1534/g3.118.200311.
Pérez-Enciso, M., L. Ramírez-Ayala, and L. M. Zingaretti (2020). "SeqBreed: a python tool to evaluate genomic prediction in complex scenarios". In: Genetion Selection Evolution 52.7. DOI: 10.1186/s12711-020-0530-2.
Pérez-Rodríguez, P. and G. de los Campos (2014). "Genome-wide regression and prediction with the BGLR statistical package". In: Genetics 198.2, pp. 483-495. URL: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4196607/.
Ratcliffe, B., O. G. El-Dien, E. P. Cappa, et al. (2017). "Single-step BLUP with varying genotyping effort in open-pollinated Picea glauca". In: G3 Genes|Genomes|Genetics 7, p. 935–942. DOI: 10.1534/g3.116.037895.
Spindel, J., H. Begum, D. Akdemir, et al. (2015). "Genomic selection and association mapping in rice (Oryza sativa): effect of trait genetic architecture, training population composition, marker number and statistical model on accuracy of rice genomic selection in elite, tropical rice breeding lines". In: PLOS Genetics 11.2. DOI: e1004982. doi:10.1371/journal.pgen.100498.
Tan, B., D. Grattapaglia, G. Salgado-Martins, et al. (2017). "Evaluating the accuracy of genomic prediction of growth and wood traits in two Eucalyptus species and their F1 hybrids". In: BMC Plant Biology 17, p. 110. DOI: 10.1186/s12870-017-1059-6.
Toro, M. Á., L. A. García-Cortés, and A. Legarra (2011). "A note on the rationale for estimating genealogical coancestry from molecular markers". In: Genetics Selection Evolution 43, p. 27. DOI: 10.1186/1297-9686-43-27.
VanRaden, P. M. (2007). "Efficient methods to compute genomic predictions". In: Journal of Dairy Science 91, p. 4414–4423.
Vourlaki, I., R. Castanera, S. Ramos-Onsins, et al. "Transposable element polymorphisms improve prediction of complex agronomic traits in rice". In: Frontiers in Plant Science.
Wang, Q., Y. Yu, J. Yuan, et al. (2017). "Effects of marker density and population structure on the genomic prediction accuracy for growth trait in Pacific white shrimp Litopenaeus vannamei". In: BMC Genetics 18.45. DOI: 10.1186/s12863-017-0507-5.
Wang, X., Y. Xu, Z. Hu, et al. (2018). "Genomic selection methods for crop improvement: current status and prospects". In: The Crop Journal 6, pp. 330-340. DOI: 10.1016/j.cj.2018.03.001.
Yang, J., S. H. Lee, M. E. Goddard, et al. (2011). "GCTA: A Tool for Genome-wide Complex Trait Analysis". In: American Journal of Human Genetics 88.1, p. 76–82. DOI: 10.1016/j.ajhg.2010.11.011.
Zhu, B., J. J. Zhang, H. Niu, et al. (2017). "Effects of marker density and minor allele frequency on genomic prediction for growth traits in Chinese Simmental beef cattle". In: Journal of Integrative Agriculture 16.4, pp. 911-920. DOI: 10.1016/S2095-3119(16)61474-0.
El BLUP es un método que se utiliza para predecir el valor genético de un individuo. Para ello, se usa una matriz de parentesco estimada a partir de la información del pedigrí1.
En la matriz A, los elementos fuera de la diagonal indican la relación entre individuos2.
El parentesco que proviene al usar la matriz A es un parentesco esperado, lo cual no refleja el porcentaje real de genes idénticos entre individuos emparentados1.
[1] Blasco (2021).
Keyboard shortcuts
↑, ←, Pg Up, k | Go to previous slide |
↓, →, Pg Dn, Space, j | Go to next slide |
Home | Go to first slide |
End | Go to last slide |
Number + Return | Go to specific slide |
b / m / f | Toggle blackout / mirrored / fullscreen mode |
c | Clone slideshow |
p | Toggle presenter mode |
t | Restart the presentation timer |
?, h | Toggle this help |
o | Tile View: Overview of Slides |
Esc | Back to slideshow |
Estudiante: Jorge Leonardo López Martínez
Director: Miguel Pérez-Enciso
El BLUP es un método que se utiliza para predecir el valor genético de un individuo. Para ello, se usa una matriz de parentesco estimada a partir de la información del pedigrí1.
En la matriz A, los elementos fuera de la diagonal indican la relación entre individuos2.
El parentesco que proviene al usar la matriz A es un parentesco esperado, lo cual no refleja el porcentaje real de genes idénticos entre individuos emparentados1.
[1] Blasco (2021).
La matriz G del GBLUP define la covarianza entre individuos en función de la similitud observada a nivel genómico, permitiendo con esto predicciones más precisas del valor genético1,2.
El GBLUP es un método de varios pasos, con una evaluación genética con BLUP, seguidos de la extracción de pseudofenotipos, un análisis genómico y la creación de un índice que combina esta información3.
La selección genómica son una serie de métodos que usan numerosos marcadores de ADN, para predecir los valores genéticos:
Se considera que este proceso (de múltiples pasos) es poco eficiente, relativamente complicado y con algunos inconvenientes:
Pueden existir individuos con fenotipos y pseudofenotipos.
Las precisiones de los pseudofenotipos son difíciles de obtener.
La creación de pseudofenotipos puede ser ineficaz si los individuos tienen poca descendencia.
En el ssGBLUP, los fenotipos de los individuos genotipados y no genotipados se analizan conjuntamente para predecir los valores genéticos, a partir de la matriz H1.
El ssGBLUP es un método de uso rutinario para la selección genómica, donde ha demostrado que produce una predicción más precisa en comparación a los métodos BLUP y GBLUP2.
Conociendo que la matriz H equivale a:
El desarrollo de las ecuaciones que conducen a la matriz H y su posterior uso dentro de las ecuaciones del modelo mixto se explican a continuación.
Partiendo de un modelo GBLUP en el que no se incluyen efectos fijos, y=Zg+e, un modelo en el cual se incluyen tanto individuos genotipados como no genotipados puede ser de la forma:
y=Z[g1g2]+e,
donde g1 corresponde a los individuos no genotipados, y g2 a los individuos genotipados. Esto es, el vector efectos del marcador en el fenotipo o valores de cría ( g ) es dividido en dos partes, una con los valores de cría de los individuos no genotipados ( g1 ) y otra con los valores de cría de los individuos genotipados ( g2 ).
Para estimar el parentesco genómico de los individuos no genotipados, sus valores de cría ( g1 ) se predicen a partir de los valores de cría de los individuos que si lo están ( g2 ), con base en la expresión:
g1=cov(g1,g2)×[var(g2]−1×g2+e
Sabiendo que la matriz de parentesco en base al pedigrí ( A ) puede descomponerse como [A11A12A21A22], donde A11 y A22 corresponden, respectivamente, a las matrices de parentesco en base al pedigrí de los individuos no genotipados y genotipados (o bien, la varianza de sus respectivos valores de cría), y A12 = A21 corresponden a la matriz de parentesco en base al pedigrí entre individuos genotipados y no genotipados (o bien, la covarianza de sus valores de cría), la expresión anterior puede reescribirse de la siguiente forma:
g1=A12A−122g2+e
Luego la expresión anterior en términos de varianza:
var(g1)=var(A12A−122g2)+var(e)
Con un poco de algebra, finalmente la expresión correspondiente a var(g1) es:
var(g1)=A11+A12A−122(G−A22)A−122A21
En relación a la expresión var(g2), ésta sería igual a:
var(g2)=G
Por último, la expresión cov(g1,g2), equivaldría a:
cov(g1,g2)=cov(A12A−122g2+e,g2)
Qué con un poco de algebra, equilvaldría a:
cov(g1,g2)=A12A−122G
Finalmente, la matriz que contiene las relaciones conjuntas de individuos genotipados y no genotipados sería:
Una vez obtenida la matriz H, se obtiene su inversa ( H−1 ), y el modelo de selección genómica se puede resolver mediante un modelo lineal mixto:
Evaluar el interés de la selección genómica en un solo paso en plantas. Para ello, se evaluó el efecto de la cantidad de individuos genotipados y del número de marcadores en un diseño que combinó datos reales de arroz y simulaciones de dos tipos, hacia atrás (ancestral) y hacia delante (descendientes).
Recurso vegetal y datos fenotípicos
Se usaron los conjuntos de datos del Rice SNP-Seek Database, editados en un estudio previo1. Adicionalmente, se consideró un MAF inferior a 0.05.
Arroz (Oryza sativa L.) |
---|
Ploidía → 2n = 24 |
No. SNP → 100.231 |
Se eligió la variedad Indica y el carácter tiempo de floración.
Predicción basada en información de pedigrí e información genómica
El modelo general fue:
y=μ+Zg+e
Los supuestos del modelo son:
BLUP → g ~ N(0,Aσ2g)
ssGBLUP → g ~ N(0,Hσ2g)
La matriz H fue construida como:
La matriz G se obtuvo a partir del método de VanRaden (2007):
G=XX′2∑nSNPj=1pj(1−pj)
Precisión de la predicción mediante simulación ancestral
Se utilizó la metodología del software Molcoanc1 con el fin de construir tres pedigríes.
Pedigrí | Núm. de individuos |
---|---|
Pedigrí 1 | 300 + 451 = 751 |
Pedigrí 2 | 1210 + 451 = 1661 |
Pedigrí 3 | 2000 + 451 = 2451 |
Este proceso se replicó diez veces para cada pedigrí.
Precisión de la predicción mediante simulación ancestral
Se uso la cor(y,ˆy) como medida de predictibilidad, en 48 individuos.
Se usaron diferentes subconjuntos de datos con la siguientes características:
a) Distinta cantidad de individuos genotipados.
100 + 48 = 148 | 250 + 48 = 298 | 451 |
---|
b) Diferentes densidades de marcadores.
1.000 | 10.000 | 100.000 |
---|
Precisión de la predicción mediante simulación ancestral
Precisión de la predicción mediante simulación ancestral
Se usaron los paquetes BGLR
1 y lme4GS
2 del R
para predecir los valores fenotípicos, permitiendo así la predicción mediante procedimientos Bayesianos y REML.
Precisión de la predicción mediante simulación de descendientes
Se generaron cuatro pedigríes, cada uno de ellos con esquemas de cruzamiento diferentes partiendo de la población fundadora con 451 individuos.
Pedigrí 1 | Pedigri 2 | Pedigrí 3 | Pedigrí 4 | |
---|---|---|---|---|
F0 | 451 | 451 | 451 | 451 |
F1 | 10 | 20 | 40 | 80 |
F2 | 800 (10x80) | 800 (20x40) | 800 (40x20) | 800 (80x10) |
F3 | 800 (800x1) | 800 (800x1) | 800 (800x1) | 800 (800x1) |
Total | 2.061 | 2.071 | 2.091 | 2.131 |
10 es el número de descendientes que tendrían los 451 individuos de la generación F0 mediante cruzamiento.
10x80 es el número de descendientes (80) que tendrían cada uno de los 10 individuos de la generación F1 por autofecundación.
800x1 es el número de descendientes (1) que tendrían cada uno de los 800 individuos de la generación F2 por autofecundación.
Este proceso se replicó diez veces para cada pedigrí.
Precisión de la predicción mediante simulación de descendientes
Se realizó un GWAS usando el software GCTA1, con el fin de generar los datos que indicaban el efecto de los QTN y su localización, y se seleccionaron 50 de ellos.
Se utilizó el módulo de Python
SeqBreed
2 para simular los fenotipos y genotipos en base a los QTN seleccionados.
SeqBreed permite la simulación de cualquier número de rasgos fenotípicos, independientemente de la ploidía. Para cada carácter, se debe especificar la heredabilidad en sentido amplio. Una opción para especificar el número de QTN y sus efectos consiste en especificar esto para cada carácter en un archivo externo. El valor genotípico para el individuo i se define como:
gi=nQTN∑j=1γijaj+nQTN∑j=1δijdj,
donde nQTN es el número de QTN, aj es el efecto aditivo del j-ésimo QTN, es decir, la mitad de la diferencia esperada entre genotipos homocigotos, con γij tomando los valores − 1, 0 y 1 para genotipos homocigotos, heterocigotos y homocigotos alternativos, respectivamente, dj es el efecto de dominancia del j-ésimo QTN, con δij tomando el valor 1 si el genotipo es heterocigoto y 0 en caso contrario.
SeqBreed calcula valores genotípicos para cada individuo y simula fenotipos con base en la expresión yi=μ+gi+ei, donde μ es es la media (una constante), gi es el genotipo del individuo, y e es el error.
Precisión de la predicción mediante simulación de descendientes
Se utilizó el módulo de Python
SeqBreed
1 para predecir los valores fenotípicos.
Se usaron diferentes subconjuntos de datos con la siguientes características:
a) Distinta cantidad de individuos genotipados.
Ninguno | F1 | F1-F2 | F0-F1-F2-F3 |
---|
b) Diferentes densidades de marcadores.
0 | 1.000 | 10.000 | 100.000 |
---|
Se uso la cor(y,ˆy) como medida de predictibilidad, en individuos F2 y F3.
Precisión de la predicción mediante simulación ancestral
Para la estimación de los componentes de varianza y la predicción de los valores genéticos utilizando el BLUP (o GBLUP o ssGBLUP) se pueden emplear métodos REML y Bayesianos.
En el REML se obtiene un estimador puntual que representa el valor con probabilidad máxima. En los análisis de este estudio, la estima de heredabilidad (mediante el BLUP) usando REML en los tres pedigríes simulados de forma ancestral sería:
Parámetro | REML | ||
---|---|---|---|
Ped. 11 | Ped. 2 | Ped. 3 | |
Varianza aditiva | 0.47 | 0.50 | 0.56 |
Varianza ambiental | 0.12 | 0.13 | 0.11 |
Heredabilidad | 0.80 | 0.79 | 0.84 |
1
Ped. 1 indica Pedigrí 1
|
Por otro lado, los métodos Bayesianos usan la Cadena de Markov Monte Carlo (MCMC) y tomar muestras sucesivamente de las distribuciones condicionales de todos los parámetros de un modelo para generar una muestra aleatoria de la distribución posterior marginal, que es el objetivo de la inferencia Bayesiana. En los análisis de este estudio, dicha distribución posterior marginal sería:
Precisión de la predicción mediante simulación de descendientes
Precisión de la predicción mediante simulación de descendientes
Ganancia en precisión de 0 a 1.000 marcadores: 0.4 - 4.0%
Ganancia en precisión de 0 a 10.000 marcadores: 0.9 - 8.7%
Ganancia en precisión de 0 a 100.000 marcadores: 0.7 - 9.0%
Genotipados | Precisión |
---|---|
Densidad del marcador de 1.000 | |
F2 | 0.580 |
F1-F2 | 0.582 |
F0-F1-F2-F3 | 0.597 |
Densidad del marcador de 10.000 | |
F2 | 0.582 |
F1-F2 | 0.583 |
F0-F1-F2-F3 | 0.627 |
Densidad del marcador de 100.000 | |
F2 | 0.581 |
F1-F2 | 0.583 |
F0-F1-F2-F3 | 0.629 |
Ninguno | 0.577 |
Aunque a mayor cantidad de marcadores mejor será la precisión de la predicción1, se demostró que por encima de cierta densidad es difícil mejorar la precisión.
Es difícil determinar el número ideal de individuos genotipados debido a que esto suele tener un costo alto2.
Especie | Densidad de marcador | Referencia |
---|---|---|
Bovino | 3.000 (38.082)1 | Li, Zhang, Wang et al. (2018) |
Trigo | 5.000 (17.181) | Norman, Taylor, Edwards et al. (2018) |
Bovino | 10.000 (667.954) | Zhu, Zhang, Niu et al. (2017) |
Camaron | 3.200 (23.000) | Wang, Yu, Yuan et al. (2017) |
Eucalipto | 5.000 (41.304) | Tan, Grattapaglia, Salgado-Martins et al. (2017) |
Arroz | 7.142 (73.147) | Spindel, Begum, Akdemir et al. (2015) |
1
El valor entre paréntesis es la densidad total.
|
Si los SNPs son solo marcadores ubicados fuera de las regiones génicas, la mayoría de las veces, ¿por qué usarlos? Debido a que pueden estar asociados a QTL o genes, hecho que puede explicarse por un evento llamado desequilibrio de ligamiento (LD).
Se pueden usar SNP para deducir el genotipo de los individuos en cada QTL no observado. Al tener paneles SNP densos (por ejemplo, 50.000 SNP), es más probable que el QTL esté en LD con al menos un SNP. Si el QTL A está ligado al SNP B, dependiendo de la fuerza de esta asociación, una vez que se observe el SNP B, implicará que se hereda junto al QTL A. De esta forma, la selección genómica se basa en el LD entre el SNP y el QTL, y aunque no observamos el QTL, se puede observar una asociación indirecta entre el SNP y el QTL:
Especie | Precisión | Referencia | |
---|---|---|---|
BLUP | ssGBLUP | ||
Cítrico | 5.0% | 5.4% | Imai, Kuniga, Yoshioka et al. (2019) |
Árbol | 4.7% | 5.0-5.4%1 | Ratcliffe, El-Dien, Cappa et al. (2017) |
Gallina | 2.2% | 4.3% | Lourenco, Fragomeni, Tsuruta et al. (2015) |
1
En 25-50-75-100% de individuos genotipados.
|
El aumento en la precisión de la predicción se debe a que, a diferencia del ssGBLUP, el BLUP asume una relación promedio de cero entre individuos fundadores1, e ignora el término del muestreo Mendeliano2,3.
El valor genético de un individuo tiene tres componentes: (i) el valor genético del padre, (ii) el valor genético de la madre y, (iii) el término del muestreo Mendeliano. El valor genético del padre y el valor genético de la madre hacen referencia a que cada individuo recibe la mitad de sus genes de su padre y la otra mitad de su madre. Sin embargo, el padre y la madre no transmiten los mismos genes a su descendecia, sino que esto en un factor de azar, llamado también como término del muestreo Mendeliano. Por tanto, el término del muestreo Mendeliano indica el factor de azar en la distribución de la mitad del material genético de cada progenitor a su descendencia.
La siguiente figura representa las fuentes de información utilizadas (áreas sombreadas) y sus proporciones antes y después de la selección (es decir, la selección reduce la varianza entre familias) cuando se utiliza el BLUP y la predicción del genoma completo (GWP) para predecir el valor genético estimado de un recién nacido sin registro fenotípico. AS es el valor genético del padre, AD es el valor genético de la madre y aj es el término de muestreo mendeliano.
Figura adaptada de Daetwyler, Villanueva, Bijma, and Woolliams(2007).
La información sobre antepasados y parientes colaterales aumenta la precisión al agregar directamente precisión en los dos primeros de estos componentes. La precisión del término de muestreo Mendeliano se puede aumentar utilizando el registro fenotípico de un individuo o la información de la progenie. En la práctica, la mayoría de los esquemas de selección BLUP aumentan la precisión al capturar información adicional sobre los antepasados y los parientes colaterales, porque la información sobre la descendencia a menudo no está disponible en el momento de la selección. Por el contrario, GWP utiliza más el término del muestreo Mendeliano.
El uso combinado de información genómica y de pedigrí en la mejora genética del arroz, mejora la precisión de la predicción genómica.
Se obtuvo una buena precisión de la predicción genómica utilizando densidades bajas de marcadores; esto permitirá que la selección genómica para el carácter tiempo de floración en arroz, mediante el ssGBLUP, pueda realizarse con información de genotipos a bajo costo.
Blasco, A. (2021). Mejora genética animal. 1st edition. EDITORIAL SÍNTESIS, S. A, p. 206. ISBN: 978-84-1357-116-4.
Caamal-Pat, D., P. Pérez-Rodríguez, J. Crossa, et al. (2021). "lme4GS: An R-package for genomic selection". In: Genetics 12. DOI: 10.3389/fgene.2021.680569.
Clark, S. A. and J. van der Werf (2013). "Genomic best linear unbiased prediction (gBLUP) for the estimation of genomic breeding values". In: Methods in Molecular Biology 1019, pp. 321-330. DOI: 10.1007/978-1-62703-447-0_13.
Fernández, J. and M. Á. Toro (2006). "A new method to estimate relatedness from molecular markers". In: Molecular Ecology 15, p. 1657–1667.
Hidalgo, J., D. A. L. Lourenco, S. Tsuruta, et al. (2021). "Investigating the persistence of accuracy of genomic predictions over time in broilers". In: Journal of Dairy Science 99.9, pp. 1-10. DOI: doi.org/10.1093/jas/skab239.
Imai, A., T. Kuniga, T. Yoshioka, et al. (2019). "Single-step genomic prediction of fruit-quality traits using phenotypic records of non-genotyped relatives in citrus". In: PLoS ONE 14.8. DOI: 10.1371/journal.pone.0221880.
Karimi, K., M. Sargolzaei, G. S. Plastow, et al. (2018). "Effect of hidden relatedness on single-step genetic evaluation in an advanced open-pollinated breeding program". In: Journal of Heredity, p. 802–810. DOI: 10.1093/jhered/esy051.
Legarra, A., I. Aguilar, and I. Misztal (2009). "A relationship matrix including full pedigree and genomic information". In: Journal of Dairy Science 92, p. 4656–4663. DOI: 10.3168/jds.2009-2061.
Li, B., N. Zhang, Y. G. Wang, et al. (2018). "Genomic prediction of breeding values using a subset of SNPs identified by three machine learning methods". In: Frontiers in genetics 9, p. 237. DOI: 10.3389/fgene.2018.00237.
Lourenco, D. A. L., B. O. Fragomeni, S. Tsuruta, et al. (2015). "Accuracy of estimated breeding values with genomic information on males, females, or both: an example on broiler chicken". In: Genetics Selection Evolution 47.56. DOI: 10.1186/s12711-015-0137-1.
Misztal, I., S. E. Aggrrey, and W. M. Muir (2012). "Experiences with a single-step genome evaluation". In: Poultry Science 92, p. 2530–2534.
Misztal, I., D. A. L. Lourenco, and A. Legarra (2020). "Current status of genomic evaluation". In: Journal of Animal Science 98.4, p. 1–14. DOI: 10.1093/jas/skaa101.
Norman, A., J. Taylor, J. Edwards, et al. (2018). "Optimising genomic selection in wheat: effect of marker density, population size and population structure on prediction accuracy". In: G3 Genes|Genomes|Genetics 8, p. 2889–2899. DOI: 10.1534/g3.118.200311.
Pérez-Enciso, M., L. Ramírez-Ayala, and L. M. Zingaretti (2020). "SeqBreed: a python tool to evaluate genomic prediction in complex scenarios". In: Genetion Selection Evolution 52.7. DOI: 10.1186/s12711-020-0530-2.
Pérez-Rodríguez, P. and G. de los Campos (2014). "Genome-wide regression and prediction with the BGLR statistical package". In: Genetics 198.2, pp. 483-495. URL: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4196607/.
Ratcliffe, B., O. G. El-Dien, E. P. Cappa, et al. (2017). "Single-step BLUP with varying genotyping effort in open-pollinated Picea glauca". In: G3 Genes|Genomes|Genetics 7, p. 935–942. DOI: 10.1534/g3.116.037895.
Spindel, J., H. Begum, D. Akdemir, et al. (2015). "Genomic selection and association mapping in rice (Oryza sativa): effect of trait genetic architecture, training population composition, marker number and statistical model on accuracy of rice genomic selection in elite, tropical rice breeding lines". In: PLOS Genetics 11.2. DOI: e1004982. doi:10.1371/journal.pgen.100498.
Tan, B., D. Grattapaglia, G. Salgado-Martins, et al. (2017). "Evaluating the accuracy of genomic prediction of growth and wood traits in two Eucalyptus species and their F1 hybrids". In: BMC Plant Biology 17, p. 110. DOI: 10.1186/s12870-017-1059-6.
Toro, M. Á., L. A. García-Cortés, and A. Legarra (2011). "A note on the rationale for estimating genealogical coancestry from molecular markers". In: Genetics Selection Evolution 43, p. 27. DOI: 10.1186/1297-9686-43-27.
VanRaden, P. M. (2007). "Efficient methods to compute genomic predictions". In: Journal of Dairy Science 91, p. 4414–4423.
Vourlaki, I., R. Castanera, S. Ramos-Onsins, et al. "Transposable element polymorphisms improve prediction of complex agronomic traits in rice". In: Frontiers in Plant Science.
Wang, Q., Y. Yu, J. Yuan, et al. (2017). "Effects of marker density and population structure on the genomic prediction accuracy for growth trait in Pacific white shrimp Litopenaeus vannamei". In: BMC Genetics 18.45. DOI: 10.1186/s12863-017-0507-5.
Wang, X., Y. Xu, Z. Hu, et al. (2018). "Genomic selection methods for crop improvement: current status and prospects". In: The Crop Journal 6, pp. 330-340. DOI: 10.1016/j.cj.2018.03.001.
Yang, J., S. H. Lee, M. E. Goddard, et al. (2011). "GCTA: A Tool for Genome-wide Complex Trait Analysis". In: American Journal of Human Genetics 88.1, p. 76–82. DOI: 10.1016/j.ajhg.2010.11.011.
Zhu, B., J. J. Zhang, H. Niu, et al. (2017). "Effects of marker density and minor allele frequency on genomic prediction for growth traits in Chinese Simmental beef cattle". In: Journal of Integrative Agriculture 16.4, pp. 911-920. DOI: 10.1016/S2095-3119(16)61474-0.