Processing math: 100%
+ - 0:00:00
Notes for current slide
Notes for next slide

Evaluación de la selección genómica de un solo paso: una aplicación en arroz



Estudiante: Jorge Leonardo López Martínez


Director: Miguel Pérez-Enciso




1

Introducción

El BLUP es un método que se utiliza para predecir el valor genético de un individuo. Para ello, se usa una matriz de parentesco estimada a partir de la información del pedigrí1.

En la matriz A, los elementos fuera de la diagonal indican la relación entre individuos2.

El parentesco que proviene al usar la matriz A es un parentesco esperado, lo cual no refleja el porcentaje real de genes idénticos entre individuos emparentados1.

2

Introducción

La matriz G del GBLUP define la covarianza entre individuos en función de la similitud observada a nivel genómico, permitiendo con esto predicciones más precisas del valor genético1,2.

El GBLUP es un método de varios pasos, con una evaluación genética con BLUP, seguidos de la extracción de pseudofenotipos, un análisis genómico y la creación de un índice que combina esta información3.

3

Proceso de selección genómica

La selección genómica son una serie de métodos que usan numerosos marcadores de ADN, para predecir los valores genéticos:

El problema con los pseudofenotipos

Se considera que este proceso (de múltiples pasos) es poco eficiente, relativamente complicado y con algunos inconvenientes:

Pueden existir individuos con fenotipos y pseudofenotipos.


Las precisiones de los pseudofenotipos son difíciles de obtener.

La creación de pseudofenotipos puede ser ineficaz si los individuos tienen poca descendencia.

Introducción

En el ssGBLUP, los fenotipos de los individuos genotipados y no genotipados se analizan conjuntamente para predecir los valores genéticos, a partir de la matriz H1.

El ssGBLUP es un método de uso rutinario para la selección genómica, donde ha demostrado que produce una predicción más precisa en comparación a los métodos BLUP y GBLUP2.

4

Derivación del ssGBLUP

Conociendo que la matriz H equivale a:

El desarrollo de las ecuaciones que conducen a la matriz H y su posterior uso dentro de las ecuaciones del modelo mixto se explican a continuación.

Partiendo de un modelo GBLUP en el que no se incluyen efectos fijos, y=Zg+e, un modelo en el cual se incluyen tanto individuos genotipados como no genotipados puede ser de la forma:

y=Z[g1g2]+e,

donde g1 corresponde a los individuos no genotipados, y g2 a los individuos genotipados. Esto es, el vector efectos del marcador en el fenotipo o valores de cría ( g ) es dividido en dos partes, una con los valores de cría de los individuos no genotipados ( g1 ) y otra con los valores de cría de los individuos genotipados ( g2 ).

Para estimar el parentesco genómico de los individuos no genotipados, sus valores de cría ( g1 ) se predicen a partir de los valores de cría de los individuos que si lo están ( g2 ), con base en la expresión:

g1=cov(g1,g2)×[var(g2]1×g2+e

Sabiendo que la matriz de parentesco en base al pedigrí ( A ) puede descomponerse como [A11A12A21A22], donde A11 y A22 corresponden, respectivamente, a las matrices de parentesco en base al pedigrí de los individuos no genotipados y genotipados (o bien, la varianza de sus respectivos valores de cría), y A12 = A21 corresponden a la matriz de parentesco en base al pedigrí entre individuos genotipados y no genotipados (o bien, la covarianza de sus valores de cría), la expresión anterior puede reescribirse de la siguiente forma:

g1=A12A122g2+e

Luego la expresión anterior en términos de varianza:

var(g1)=var(A12A122g2)+var(e)

Con un poco de algebra, finalmente la expresión correspondiente a var(g1) es:

var(g1)=A11+A12A122(GA22)A122A21

En relación a la expresión var(g2), ésta sería igual a:

var(g2)=G

Por último, la expresión cov(g1,g2), equivaldría a:

cov(g1,g2)=cov(A12A122g2+e,g2)

Qué con un poco de algebra, equilvaldría a:

cov(g1,g2)=A12A122G

Finalmente, la matriz que contiene las relaciones conjuntas de individuos genotipados y no genotipados sería:

Una vez obtenida la matriz H, se obtiene su inversa ( H1 ), y el modelo de selección genómica se puede resolver mediante un modelo lineal mixto:

Objetivo

Evaluar el interés de la selección genómica en un solo paso en plantas. Para ello, se evaluó el efecto de la cantidad de individuos genotipados y del número de marcadores en un diseño que combinó datos reales de arroz y simulaciones de dos tipos, hacia atrás (ancestral) y hacia delante (descendientes).

5

Materiales y métodos

Recurso vegetal y datos fenotípicos

Se usaron los conjuntos de datos del Rice SNP-Seek Database, editados en un estudio previo1. Adicionalmente, se consideró un MAF inferior a 0.05.

Arroz (Oryza sativa L.)
Ploidía → 2n = 24
No. SNP → 100.231


Se eligió la variedad Indica y el carácter tiempo de floración.

6

Materiales y métodos

Predicción basada en información de pedigrí e información genómica

El modelo general fue:

y=μ+Zg+e


Los supuestos del modelo son:

  • BLUP g ~ N(0,Aσ2g)

  • ssGBLUP g ~ N(0,Hσ2g)

La matriz H fue construida como:


La matriz G se obtuvo a partir del método de VanRaden (2007):

G=XX2nSNPj=1pj(1pj)

7

Materiales y métodos

Precisión de la predicción mediante simulación ancestral

Se utilizó la metodología del software Molcoanc1 con el fin de construir tres pedigríes.

Pedigrí Núm. de individuos
Pedigrí 1 300 + 451 = 751
Pedigrí 2 1210 + 451 = 1661
Pedigrí 3 2000 + 451 = 2451

Este proceso se replicó diez veces para cada pedigrí.

8

Materiales y métodos

Precisión de la predicción mediante simulación ancestral

Se uso la cor(y,ˆy) como medida de predictibilidad, en 48 individuos.


Se usaron diferentes subconjuntos de datos con la siguientes características:

a) Distinta cantidad de individuos genotipados.

100 + 48 = 148 250 + 48 = 298 451

b) Diferentes densidades de marcadores.

1.000 10.000 100.000

9

Materiales y métodos

Precisión de la predicción mediante simulación ancestral

10

Materiales y métodos

Precisión de la predicción mediante simulación ancestral

Se usaron los paquetes BGLR1 y lme4GS2 del R para predecir los valores fenotípicos, permitiendo así la predicción mediante procedimientos Bayesianos y REML.


10

Materiales y métodos

Precisión de la predicción mediante simulación de descendientes

Se generaron cuatro pedigríes, cada uno de ellos con esquemas de cruzamiento diferentes partiendo de la población fundadora con 451 individuos.

Pedigrí 1 Pedigri 2 Pedigrí 3 Pedigrí 4
F0 451 451 451 451
F1 10 20 40 80
F2 800 (10x80) 800 (20x40) 800 (40x20) 800 (80x10)
F3 800 (800x1) 800 (800x1) 800 (800x1) 800 (800x1)
Total 2.061 2.071 2.091 2.131

10 es el número de descendientes que tendrían los 451 individuos de la generación F0 mediante cruzamiento.

10x80 es el número de descendientes (80) que tendrían cada uno de los 10 individuos de la generación F1 por autofecundación.

800x1 es el número de descendientes (1) que tendrían cada uno de los 800 individuos de la generación F2 por autofecundación.

Este proceso se replicó diez veces para cada pedigrí.

11

Materiales y métodos

Precisión de la predicción mediante simulación de descendientes

Se realizó un GWAS usando el software GCTA1, con el fin de generar los datos que indicaban el efecto de los QTN y su localización, y se seleccionaron 50 de ellos.


Se utilizó el módulo de Python SeqBreed2 para simular los fenotipos y genotipos en base a los QTN seleccionados.

12

Respecto a la simulación de fenotipos y genotipos

SeqBreed permite la simulación de cualquier número de rasgos fenotípicos, independientemente de la ploidía. Para cada carácter, se debe especificar la heredabilidad en sentido amplio. Una opción para especificar el número de QTN y sus efectos consiste en especificar esto para cada carácter en un archivo externo. El valor genotípico para el individuo i se define como:

gi=nQTNj=1γijaj+nQTNj=1δijdj,

donde nQTN es el número de QTN, aj es el efecto aditivo del j-ésimo QTN, es decir, la mitad de la diferencia esperada entre genotipos homocigotos, con γij tomando los valores − 1, 0 y 1 para genotipos homocigotos, heterocigotos y homocigotos alternativos, respectivamente, dj es el efecto de dominancia del j-ésimo QTN, con δij tomando el valor 1 si el genotipo es heterocigoto y 0 en caso contrario.

SeqBreed calcula valores genotípicos para cada individuo y simula fenotipos con base en la expresión yi=μ+gi+ei, donde μ es es la media (una constante), gi es el genotipo del individuo, y e es el error.

Materiales y métodos

Precisión de la predicción mediante simulación de descendientes

Se utilizó el módulo de Python SeqBreed1 para predecir los valores fenotípicos.


Se usaron diferentes subconjuntos de datos con la siguientes características:

a) Distinta cantidad de individuos genotipados.

Ninguno F1 F1-F2 F0-F1-F2-F3

b) Diferentes densidades de marcadores.

0 1.000 10.000 100.000


Se uso la cor(y,ˆy) como medida de predictibilidad, en individuos F2 y F3.

13

Resultados y discusión

Precisión de la predicción mediante simulación ancestral

14

REML y métodos Bayesianos

Para la estimación de los componentes de varianza y la predicción de los valores genéticos utilizando el BLUP (o GBLUP o ssGBLUP) se pueden emplear métodos REML y Bayesianos.

En el REML se obtiene un estimador puntual que representa el valor con probabilidad máxima. En los análisis de este estudio, la estima de heredabilidad (mediante el BLUP) usando REML en los tres pedigríes simulados de forma ancestral sería:

Parámetro REML
Ped. 11 Ped. 2 Ped. 3
Varianza aditiva 0.47 0.50 0.56
Varianza ambiental 0.12 0.13 0.11
Heredabilidad 0.80 0.79 0.84

1 Ped. 1 indica Pedigrí 1

Por otro lado, los métodos Bayesianos usan la Cadena de Markov Monte Carlo (MCMC) y tomar muestras sucesivamente de las distribuciones condicionales de todos los parámetros de un modelo para generar una muestra aleatoria de la distribución posterior marginal, que es el objetivo de la inferencia Bayesiana. En los análisis de este estudio, dicha distribución posterior marginal sería:

Resultados y discusión

Precisión de la predicción mediante simulación de descendientes

15

Resultados y discusión

Precisión de la predicción mediante simulación de descendientes

Ganancia en precisión de 0 a 1.000 marcadores: 0.4 - 4.0%


Ganancia en precisión de 0 a 10.000 marcadores: 0.9 - 8.7%


Ganancia en precisión de 0 a 100.000 marcadores: 0.7 - 9.0%

16

Ganancias en precisión

Genotipados Precisión
Densidad del marcador de 1.000
F2 0.580
F1-F2 0.582
F0-F1-F2-F3 0.597
Densidad del marcador de 10.000
F2 0.582
F1-F2 0.583
F0-F1-F2-F3 0.627
Densidad del marcador de 100.000
F2 0.581
F1-F2 0.583
F0-F1-F2-F3 0.629
Ninguno 0.577

Resultados y discusión

Aunque a mayor cantidad de marcadores mejor será la precisión de la predicción1, se demostró que por encima de cierta densidad es difícil mejorar la precisión.

Es difícil determinar el número ideal de individuos genotipados debido a que esto suele tener un costo alto2.

Especie Densidad de marcador Referencia
Bovino 3.000 (38.082)1 Li, Zhang, Wang et al. (2018)
Trigo 5.000 (17.181) Norman, Taylor, Edwards et al. (2018)
Bovino 10.000 (667.954) Zhu, Zhang, Niu et al. (2017)
Camaron 3.200 (23.000) Wang, Yu, Yuan et al. (2017)
Eucalipto 5.000 (41.304) Tan, Grattapaglia, Salgado-Martins et al. (2017)
Arroz 7.142 (73.147) Spindel, Begum, Akdemir et al. (2015)

1 El valor entre paréntesis es la densidad total.

17

El desequilibrio de ligamiento

Si los SNPs son solo marcadores ubicados fuera de las regiones génicas, la mayoría de las veces, ¿por qué usarlos? Debido a que pueden estar asociados a QTL o genes, hecho que puede explicarse por un evento llamado desequilibrio de ligamiento (LD).

Se pueden usar SNP para deducir el genotipo de los individuos en cada QTL no observado. Al tener paneles SNP densos (por ejemplo, 50.000 SNP), es más probable que el QTL esté en LD con al menos un SNP. Si el QTL A está ligado al SNP B, dependiendo de la fuerza de esta asociación, una vez que se observe el SNP B, implicará que se hereda junto al QTL A. De esta forma, la selección genómica se basa en el LD entre el SNP y el QTL, y aunque no observamos el QTL, se puede observar una asociación indirecta entre el SNP y el QTL:

Resultados y discusión

Especie Precisión Referencia
BLUP ssGBLUP
Cítrico 5.0% 5.4% Imai, Kuniga, Yoshioka et al. (2019)
Árbol 4.7% 5.0-5.4%1 Ratcliffe, El-Dien, Cappa et al. (2017)
Gallina 2.2% 4.3% Lourenco, Fragomeni, Tsuruta et al. (2015)

1 En 25-50-75-100% de individuos genotipados.

El aumento en la precisión de la predicción se debe a que, a diferencia del ssGBLUP, el BLUP asume una relación promedio de cero entre individuos fundadores1, e ignora el término del muestreo Mendeliano2,3.

18

El término de muestreo Mendeliano

El valor genético de un individuo tiene tres componentes: (i) el valor genético del padre, (ii) el valor genético de la madre y, (iii) el término del muestreo Mendeliano. El valor genético del padre y el valor genético de la madre hacen referencia a que cada individuo recibe la mitad de sus genes de su padre y la otra mitad de su madre. Sin embargo, el padre y la madre no transmiten los mismos genes a su descendecia, sino que esto en un factor de azar, llamado también como término del muestreo Mendeliano. Por tanto, el término del muestreo Mendeliano indica el factor de azar en la distribución de la mitad del material genético de cada progenitor a su descendencia.

La siguiente figura representa las fuentes de información utilizadas (áreas sombreadas) y sus proporciones antes y después de la selección (es decir, la selección reduce la varianza entre familias) cuando se utiliza el BLUP y la predicción del genoma completo (GWP) para predecir el valor genético estimado de un recién nacido sin registro fenotípico. AS es el valor genético del padre, AD es el valor genético de la madre y aj es el término de muestreo mendeliano.

Figura adaptada de Daetwyler, Villanueva, Bijma, and Woolliams(2007).

La información sobre antepasados ​​y parientes colaterales aumenta la precisión al agregar directamente precisión en los dos primeros de estos componentes. La precisión del término de muestreo Mendeliano se puede aumentar utilizando el registro fenotípico de un individuo o la información de la progenie. En la práctica, la mayoría de los esquemas de selección BLUP aumentan la precisión al capturar información adicional sobre los antepasados ​​y los parientes colaterales, porque la información sobre la descendencia a menudo no está disponible en el momento de la selección. Por el contrario, GWP utiliza más el término del muestreo Mendeliano.

Conclusiones

  • El uso combinado de información genómica y de pedigrí en la mejora genética del arroz, mejora la precisión de la predicción genómica.

  • Se obtuvo una buena precisión de la predicción genómica utilizando densidades bajas de marcadores; esto permitirá que la selección genómica para el carácter tiempo de floración en arroz, mediante el ssGBLUP, pueda realizarse con información de genotipos a bajo costo.

19

Bibliografía

Blasco, A. (2021). Mejora genética animal. 1st edition. EDITORIAL SÍNTESIS, S. A, p. 206. ISBN: 978-84-1357-116-4.

Caamal-Pat, D., P. Pérez-Rodríguez, J. Crossa, et al. (2021). "lme4GS: An R-package for genomic selection". In: Genetics 12. DOI: 10.3389/fgene.2021.680569.

Clark, S. A. and J. van der Werf (2013). "Genomic best linear unbiased prediction (gBLUP) for the estimation of genomic breeding values". In: Methods in Molecular Biology 1019, pp. 321-330. DOI: 10.1007/978-1-62703-447-0_13.

Fernández, J. and M. Á. Toro (2006). "A new method to estimate relatedness from molecular markers". In: Molecular Ecology 15, p. 1657–1667.

Hidalgo, J., D. A. L. Lourenco, S. Tsuruta, et al. (2021). "Investigating the persistence of accuracy of genomic predictions over time in broilers". In: Journal of Dairy Science 99.9, pp. 1-10. DOI: doi.org/10.1093/jas/skab239.

Imai, A., T. Kuniga, T. Yoshioka, et al. (2019). "Single-step genomic prediction of fruit-quality traits using phenotypic records of non-genotyped relatives in citrus". In: PLoS ONE 14.8. DOI: 10.1371/journal.pone.0221880.

20

Bibliografía

Karimi, K., M. Sargolzaei, G. S. Plastow, et al. (2018). "Effect of hidden relatedness on single-step genetic evaluation in an advanced open-pollinated breeding program". In: Journal of Heredity, p. 802–810. DOI: 10.1093/jhered/esy051.

Legarra, A., I. Aguilar, and I. Misztal (2009). "A relationship matrix including full pedigree and genomic information". In: Journal of Dairy Science 92, p. 4656–4663. DOI: 10.3168/jds.2009-2061.

Li, B., N. Zhang, Y. G. Wang, et al. (2018). "Genomic prediction of breeding values using a subset of SNPs identified by three machine learning methods". In: Frontiers in genetics 9, p. 237. DOI: 10.3389/fgene.2018.00237.

Lourenco, D. A. L., B. O. Fragomeni, S. Tsuruta, et al. (2015). "Accuracy of estimated breeding values with genomic information on males, females, or both: an example on broiler chicken". In: Genetics Selection Evolution 47.56. DOI: 10.1186/s12711-015-0137-1.

Misztal, I., S. E. Aggrrey, and W. M. Muir (2012). "Experiences with a single-step genome evaluation". In: Poultry Science 92, p. 2530–2534.

21

Bibliografía

Misztal, I., D. A. L. Lourenco, and A. Legarra (2020). "Current status of genomic evaluation". In: Journal of Animal Science 98.4, p. 1–14. DOI: 10.1093/jas/skaa101.

Norman, A., J. Taylor, J. Edwards, et al. (2018). "Optimising genomic selection in wheat: effect of marker density, population size and population structure on prediction accuracy". In: G3 Genes|Genomes|Genetics 8, p. 2889–2899. DOI: 10.1534/g3.118.200311.

Pérez-Enciso, M., L. Ramírez-Ayala, and L. M. Zingaretti (2020). "SeqBreed: a python tool to evaluate genomic prediction in complex scenarios". In: Genetion Selection Evolution 52.7. DOI: 10.1186/s12711-020-0530-2.

Pérez-Rodríguez, P. and G. de los Campos (2014). "Genome-wide regression and prediction with the BGLR statistical package". In: Genetics 198.2, pp. 483-495. URL: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4196607/.

Ratcliffe, B., O. G. El-Dien, E. P. Cappa, et al. (2017). "Single-step BLUP with varying genotyping effort in open-pollinated Picea glauca". In: G3 Genes|Genomes|Genetics 7, p. 935–942. DOI: 10.1534/g3.116.037895.

22

Bibliografía

Spindel, J., H. Begum, D. Akdemir, et al. (2015). "Genomic selection and association mapping in rice (Oryza sativa): effect of trait genetic architecture, training population composition, marker number and statistical model on accuracy of rice genomic selection in elite, tropical rice breeding lines". In: PLOS Genetics 11.2. DOI: e1004982. doi:10.1371/journal.pgen.100498.

Tan, B., D. Grattapaglia, G. Salgado-Martins, et al. (2017). "Evaluating the accuracy of genomic prediction of growth and wood traits in two Eucalyptus species and their F1 hybrids". In: BMC Plant Biology 17, p. 110. DOI: 10.1186/s12870-017-1059-6.

Toro, M. Á., L. A. García-Cortés, and A. Legarra (2011). "A note on the rationale for estimating genealogical coancestry from molecular markers". In: Genetics Selection Evolution 43, p. 27. DOI: 10.1186/1297-9686-43-27.

VanRaden, P. M. (2007). "Efficient methods to compute genomic predictions". In: Journal of Dairy Science 91, p. 4414–4423.

Vourlaki, I., R. Castanera, S. Ramos-Onsins, et al. "Transposable element polymorphisms improve prediction of complex agronomic traits in rice". In: Frontiers in Plant Science.

23

Bibliografía

Wang, Q., Y. Yu, J. Yuan, et al. (2017). "Effects of marker density and population structure on the genomic prediction accuracy for growth trait in Pacific white shrimp Litopenaeus vannamei". In: BMC Genetics 18.45. DOI: 10.1186/s12863-017-0507-5.

Wang, X., Y. Xu, Z. Hu, et al. (2018). "Genomic selection methods for crop improvement: current status and prospects". In: The Crop Journal 6, pp. 330-340. DOI: 10.1016/j.cj.2018.03.001.

Yang, J., S. H. Lee, M. E. Goddard, et al. (2011). "GCTA: A Tool for Genome-wide Complex Trait Analysis". In: American Journal of Human Genetics 88.1, p. 76–82. DOI: 10.1016/j.ajhg.2010.11.011.

Zhu, B., J. J. Zhang, H. Niu, et al. (2017). "Effects of marker density and minor allele frequency on genomic prediction for growth traits in Chinese Simmental beef cattle". In: Journal of Integrative Agriculture 16.4, pp. 911-920. DOI: 10.1016/S2095-3119(16)61474-0.

24

Introducción

El BLUP es un método que se utiliza para predecir el valor genético de un individuo. Para ello, se usa una matriz de parentesco estimada a partir de la información del pedigrí1.

En la matriz A, los elementos fuera de la diagonal indican la relación entre individuos2.

El parentesco que proviene al usar la matriz A es un parentesco esperado, lo cual no refleja el porcentaje real de genes idénticos entre individuos emparentados1.

2
Paused

Help

Keyboard shortcuts

, , Pg Up, k Go to previous slide
, , Pg Dn, Space, j Go to next slide
Home Go to first slide
End Go to last slide
Number + Return Go to specific slide
b / m / f Toggle blackout / mirrored / fullscreen mode
c Clone slideshow
p Toggle presenter mode
t Restart the presentation timer
?, h Toggle this help
oTile View: Overview of Slides
Esc Back to slideshow