Genoomi valiku tõhusus pesitsuspopulatsiooni kujundamisel ja fenotüübi ennustamine tomatis pärilikkus

Genoomi valiku tõhusus pesitsuspopulatsiooni kujundamisel ja fenotüübi ennustamine tomatis pärilikkus

Anonim

Õppeained

  • Põllumajandusgeneetika
  • Taimekasvatus
  • Taimegeneetika

Abstraktne

Genoomselektsiooni (GS), milles kasutatakse tõuaretusvaliku genoomitüübi andmete põhjal hinnangulist geneetilist potentsiaali, kasutatakse nüüd laialdaselt kui tõhusat meetodit geneetiliselt keerukate tunnuste parandamiseks. Hinnati GSi potentsiaali tomati lahustuvate kuivainete sisalduse ja vilja kogumassi suurendamisel. GS-mudelite konstrueerimiseks kasutati suureviljaliste F 1 sortide kollektsiooni ja mudelite valideerimiseks kasutati ristandite järglasi. Käesolev uuring hõlmab kahte eksperimenti: vanemate kombinatsiooni ennustamine, mis loob kõrgema järglaskonna, ja järglaste fenotüüpide ennustamine. GS-mudelid ennustasid edukalt paremat vanemat isegi siis, kui fenotüübiline väärtus kandidaatide vahel oluliselt ei varieerunud. GS-mudelid ennustasid ka järglaste fenotüüpe, ehkki nende tõhusus varieerus sõltuvalt vanemate ristkombinatsioonidest ja valitud tunnustest. Ehkki GSi rakendamiseks tegelikus aretussituatsioonis on vaja täiendavaid analüüse, näitasid meie tulemused, et GS on tomatikasvatuse tuleviku kavandamisel paljutõotav strateegia.

Sissejuhatus

Genoomselektsiooni (GS) on nüüd laialdaselt tunnustatud kui tõhusat meetodit geneetiliselt keerukate tunnuste parandamiseks (Desta ja Ortiz, 2014). GS-is kasutatakse fenotüübi ja genotüübiga treeningpopulatsiooni, et konstrueerida mudel, mis ennustab fenotüüpimata isendite geneetilist potentsiaali (genoomi hinnanguline aretusväärtus, GEBV), kasutades genoomi hõlmavaid genotüübi andmeid (Meuwissen et al., 2001). . Simulatsioonides andis GS kõrge efektiivsuse geneetilise kasumi osas aastas ja geneetilise kasumi kogumaksumuse osas, säästes fenotüübiliste vaatluste jaoks vajalikku aega, kulusid ja vaeva (Bernardo ja Yu, 2007; Heffner jt, 2010, 2011). GS on juba rakendatud ja tõestanud jõulist edu tõuaretuses (Hayes jt, 2009). Taimeliikide puhul on GSi kasutamist mais ja nisu mitmetes rakendusuuringutes kasutatud. Mais, Massman jt. (2013) võrdles teravilja saagise geneetilist kasvu ja stimuleeriva kvaliteedi tunnuseid GS-i ja tavapärase marker-assisteeritud korduva valiku vahel ning näitasid, et GS-i korral olid geneetilised kasumid suuremad. Combs ja Bernardo (2013) viisid läbi viis GS-i tsüklit ja täheldasid, et maisi terasaagi realiseeritud geneetilised kasumid olid üldiselt ennustatud tasemega, kuigi esimese tsükli järgsed kasumid olid ebastabiilsed. GS-i kasutades Beyene jt. (2015) saavutasid maisi terasaagis suurema geneetilise kasumi, võrreldes tavapärase sugupuuaretusega. Nisus Rutkoski jt. (2015b) teatasid, et GS näitas haiguse resistentsuse peaaegu samaväärset geneetilist kasvu ajaühikus, võrreldes fenotüüpse valikuga. Bassi jt. (2016) on üle vaadanud taimede GS täiendavad uuringud.

GS efektiivsust mõjutavad sihtomaduste geneetiline arhitektuur, markerite tihedus, mudeli konstrueerimise statistiline meetod ja populatsiooni koosseisu treenimine. Kuna GS-mudelid kasutavad markeri efekti hindamiseks markeri ja kvantitatiivsete tunnuste lookuste vahelist seost tasakaalustamatust (LD), on eelistatavad suure tihedusega markerid (Meuwissen ja Goddard, 2010). See ei pruugi aga olla tasuv, kui aretuspopulatsiooni suurus on suur ja majanduslik kasu valiku kohta on madal. Habier jt. (2009) osutasid, et madala tihedusega markerite prognoositavuse kaotus oli väike, kui markerid paiknesid ühtlaselt; hilisemad uuringud on seda erinevates kultuurides ja tunnusjoontes kinnitanud (Heffner jt, 2011; Spindel jt, 2015). Teisest küljest on Cleveland jt. (2010) teatasid, et aditiivse toime suuruse põhjal valitud markerid näitasid kõrgemat ennustatavust võrreldes ühtlaselt asetsevate markeritega, kui sihtmärk oli oligogeenne. Praktilises GS-is tuleks statistiline meetod valida empiiriliselt hinnatud täpsuse põhjal, mis arvutatakse tavaliselt ristvalideerimise teel. Genoomse parima lineaarse erapooletu ennustamine (GBLUP; VanRaden, 2008) on populaarne ja arvutuslikult teostatav meetod, mis on paljudes juhtumiuuringutes hästi toiminud (de los Campos jt, 2013). Habier jt. (2007, 2013) näitasid, et Bayesia meetodid sobivad paremini juhul, kui treenitav populatsioon ja aretuspopulatsioon on geneetiliselt kaugel. Onogi jt. (2015) kasutasid simuleeritud andmeid, et näidata, et statistilise meetodi valik on eriti oluline, kui treenitava populatsiooni suurus on väike, ja kui sihtmärk sisaldab mitteadditiivseid geneetilisi tegureid, on mittelineaarsed meetodid soodsamad kui lineaarsed meetodid. Sellegipoolest olid enamikes empiirilistes uuringutes erinevused meetodite vahel sageli väikesed (de los Campos jt, 2013). Treeningpopulatsiooni kujundamine võib olla kõige olulisem GS efektiivsust mõjutav tegur. Aretuspopulatsioonile geneetiliselt lähedane, ideaaljuhul täisõde suurendav koolituspopulatsioon suurendab GS-mudelite ennustatavust ja valiku efektiivsust (Habier et al., 2007). Riedelsheimer jt. (2013) osutasid, et poolõed-vennad andsid suurema GS efektiivsuse kui kaugemalt seotud populatsioonid. Üldiselt nõuab uue koolituspopulatsiooni väljaarendamine lisakulutusi, aega ja vaeva. Seetõttu on GS-i rakendamiseks tegelikus aretuskeskkonnas sobivamad sellised ajaloolised populatsioonid nagu aretusliinid. Rutkoski jt. (2015a) näitasid empiiriliselt ajalooliste nisuliinide kasulikkust koolituspopulatsioonina, ehkki lähedaste sugulaste väljaõppe populatsioon suurendas ennustatavust.

GS-i efektiivsust ei saa ilma empiiriliste andmeteta eelnevalt usaldusväärselt ennustada (Bassi jt, 2016). Seetõttu tuleb GS-i tõhusust praktilises katses hoolikalt hinnata enne selle rakendamist tegelikus aretussituatsioonis. Tomat ( Solanum lycopersicum ) on üks maailma tähtsamaid põllukultuure ja moodustab kõigi köögiviljakultuuride hulgas suurima toodangu (2013. aastal 164 miljonit tonni, FAO statistika; //faostat.fao.org/). 2012. aastal vabastati tomati genoom (Tomato Genome Consortium, 2012). Lisaks on liikide jaoks välja töötatud mitu kõrge tihedusega ühe nukleotiidi polümorfismi (SNP) markerikomplekti (Sim jt, 2012; Shirasawa jt, 2013; Yamamoto jt, 2016). Need arengud hõlbustasid DNA-markerite kasutamist tomatikasvatuses. Tomatis Yamamoto jt. (2016) hindasid GS-i potentsiaali saagisega seotud tunnuste osas suureviljalistes sortides. Duangjit jt. (2016) analüüsisid GS-i potentsiaali puuviljade kvaliteediga seotud tunnuste osas, kasutades tomatikogumike kollektsiooni, mis koosnes kasvatatud, kirsist ja metsikutest tomatitest. Nendes uuringutes analüüsiti GS-mudelite ennustamistäpsust ristvalideerimise abil.

Käesolevas uuringus hindasime GS-i potentsiaali tomatis lahustuvate kuivainete sisalduse ja puuvilja kogumassi parandamisel. Kasutasime treeningpopulatsioonina 96 suureviljalisi F 1 tomatisorte ja hindasime GS-mudelite ennustatavust nende järglaste populatsioonis. Tomatite aretusstrateegiad erinevad aretuseesmärgi, aretussektorite ja aretaja eelistuse järgi. Kuna aga eliitliinide või -sortide vahel ristumine on tänapäevastes sordiaretusprogrammides tavaline strateegia, sobis meie taimede valik meie eesmärkidele. Meie populatsioon oli väike, väheste fenotüübiliste vaatlustega, kuna fenotüüpide esinemist sadades hüdropooniliselt kasvatatud liinides polnud võimalik. Lisaks kasutasime GS-mudeli ehitamiseks paarsada markerist koosnevat madala tihedusega markerikomplekti, mis on eelistatav tegeliku aretusprogrammi jaoks. Meie uuring on esimene, mis hindab GS-i tõhusust tomatis empiiriliselt realistlikul katselisel skaalal.

materjalid ja meetodid

Taimne materjal ja kasvutingimused

Kasutasime 96 suureviljalise F 1 tomatisordi kollektsiooni, mida on Yamamoto jt kirjeldanud. (2016). 2011. ja 2014. aastal kasvatati igast sordist üks taim. Lisaks arendasime välja neli järglaspopulatsiooni, mis olid saadud nende sortide vahel valitud ristamisel: SL10 × SL65 ( n = 21), SL10 × SL75 ( n = 23), SL65 × SL88 ( n = 23) ja SL75 × SL88 ( n = 23). Järglaste populatsioone kasvatati 2015. aastal. Kõiki taimi kasvatati hüpopooniliselt suure juhtmesüsteemiga kasvuhoones Riikliku Põllumajanduse ja Toidu Uuringute Organisatsiooni köögivilja- ja teeteaduse instituudis Tsu, Jaapan. Taimekasv algas veebruari esimesel nädalal ja lõppes juulis. Tomatiseemned külvati granuleeritud pinnasesse (Nippi Engei Baido 1; Nihon Hiryo Co., Tokyo, Jaapan) ja 20 päeva hiljem siirdati seemikud kivivilla tahvlitele. Taimedele lisati toitelahuse Otsuka-A ja Otsuka-5 segu (Otsuka AgriTechno, Tokyo, Jaapan). Elektrijuhtivuse tase reguleeriti vastavalt taime kasvule väärtusele 0, 80, 1, 20, 1, 60, 2, 00 ja 2, 40 dS m −1 . Taimed said iga kord kastmise korral 300 ml vett (kuus korda päevas vastavalt taime kasvu- ja kliimatingimustele). Puuvilja soodustamiseks lahjendati tomatitoon (sealhulgas 0, 15% 4-klorofenoksüäädikhape; Ishihara Biosciences, Tokyo, Jaapan) 100-kordselt ja pihustati igale puntrasle, kui teine ​​kuni viies lill olid avatud. Iga puntras oli puuviljade ühtlase suuruse saavutamiseks piiratud kuue õiega. Taimed näpistati neljanda sõrestiku kohal. Taimede fenotüüp määrati lahustuvate kuivainete sisalduse ja taime kogu vilja massi järgi (lisatabel S1). Lahustuvate kuivainete sisaldust, mis näitab puuviljasuhkru sisaldust, mõõdeti Brixi kraadides ja saadi nelja taime keskmiselt ühe taime kohta. Fenotüübilised väärtused keskmistati sordi kohta kahe aasta jooksul.

Genotüpiseerimine

Kogu sordi genoomne DNA eraldati iga sordi ühe taime lehtedest, kasutades DNeasy Plant Mini Kit (Qiagen, Hilden, Saksamaa). Taimmaterjali genotüüp määrati 337 SNP-markerite jaoks (lisatabel S2). Need markerid valiti 16 782 varem välja töötatud markeri hulgast (Yamamoto et al., 2016) järgmiste kriteeriumide põhjal: (1) valitud markerid olid polümorfsed nelja vanema sordi vahel (st SL10, SL65, SL75 ja SL88) ja (2) markerid olid jaotunud kogu genoomis ja võimalikult ühtlaselt paigutatud. SNP genotüpiseerimine teostati 96M96 dünaamilise massiivi abil BioMarki platvormil (Fluidigm, Lõuna-San Francisco, CA, USA) vastavalt tootja protokollile. Andmeid analüüsiti, kasutades genotüüpkõnede saamiseks Fluidigm SNP genotüüpide analüüsi versiooni 4.1.2. Proovid jaotati SNP-tüübi normaliseerimise alusel kolme genotüübi järgi, kasutades k-vahendite klasterdamisalgoritmi. SNP genotüübi andmeid hinnati BEAGLE versiooniga 3.3.2 (Browning ja Browning, 2007), et imputeerida puuduvaid andmeid ja hinnata üksikisikute tõenäoliseimaid ühendamise faase (täiendav tabel S3).

Pärilikkus, rahvastiku struktuur ja LD

Kitsarinnalise päritavuse arvutamiseks

Image

tunnustest hindasime geneetilise ja veavariatsioonikomponente (

Image
ja
Image
) piiratud maksimaalse tõenäosuse lähenemisviisiga (Kang jt, 2008), kuna fenotüüpiliste vaatluste kordamine ei olnud nende komponentide arvutamiseks standardmeetodi abil piisav. Piiratud maksimaalse tõenäosuse lähenemisviisi jaoks määratleti fenotüübiline dispersioon V järgmise võrrandiga:

Image

kus A on geneetiline seosmaatriks indiviidide vahel ja I on n × n identiteedimaatriks. Geneetilise seose maatriksis määratleti element A jk kui

Image

kus x ij (kodeeritud kui 0, 1, 2) on j- nda indiviidi i- nda SNP- i võrdlusalleeli koopiate arv, p i on i- nda SNP- i väikseim alleeli sagedus ja m on koguarv markerite arv. Võrrandi (1) piiratud maksimaalse tõenäosusega lahendus saadi R-paketi rrBLUP versiooni 4.4 (Endelman, 2011) funktsiooni „segatud.lahendamine“ abil. Prognoositavaid dispersioonikomponente kasutati pärilikkuse arvutamiseks järgmise võrrandiga:

Image

Sortide ja järglaste populatsiooni geneetilise populatsiooni struktuuri uurimiseks viisime läbi põhikomponentide analüüsi (PCA), kasutades funktsiooni R prcomp. Markeripaaride vahelist LD-i hinnati, kasutades ruudu Pearsoni korrelatsioonikoefitsienti ( r 2 ), mis arvutati funktsiooniga 'LD' R-paketi geneetika versioonis 1.3.8.1. Analüüsiti LD astme ja sidemete kaardi vahemaa seost. SNP-markerite ahelduskaardi positsioone hinnati nende füüsikalistest positsioonidest kohaliku polünoomi regressiooni abil, kasutades seoseid, mida on kirjeldatud Shirasawa et al. (2010). Lokaalne polünoomi regressioon viidi läbi R funktsiooni 'less' abil vaikesätetega. Kui hinnanguline vahemaa kahe järjestikuse markeri vahel muutus negatiivseks, asendati see väärtusega 1, 0 −6 . LD-väärtuste ( r 2 ) ja vastavate markerite vahelise seosekaardi vaheline seos modelleeriti, kohandades lokaalsed polünoomid funktsiooniga „locpoly“ R-paketi KernSmoothi versioonis 2.23.

GS mudelid

GS-mudelite konstrueerimiseks sortide genotüübi ja fenotüübi andmete põhjal katsetasime kuut statistilist meetodit. GBLUP (VanRaden, 2008), Bayesian Lasso (BL; Park ja Casella, 2008), kaalutud Bayesia kahanemise regressioon (wBSR; Hayashi ja Iwata, 2010) ja Bayes C (Habier et al., 2011) on lineaarsed meetodid, samas kui Kerneli taasesitamine Hilberti ruumide regressioon (RKHS; Gianola ja van Kaam, 2008) ja juhuslik mets (RF; Breiman, 2001) on mittelineaarsed meetodid. GBLUP ja RKHS eeldavad järgmist mudelit:

Image

kus y on fenotüüpide vektor, 1 n on nende vektor, μ on keskmine, Z on kujundusmaatriks, mis jaotab kirjed geneetilistele väärtustele ja g on markerite aditiivsete geneetiliste mõjude vektor. GBLUP-is on g dispersioon

Image
, kus G on realiseeritud aditiivse geneetilise seose maatriks, mis on arvutatud SNP markerite genotüüpide järgi, ja
Image
on selle mudeli geneetiline variatsioon. RKHS-is asendati realiseeritud geneetiliste suhete maatriks G Gaussi tuuma maatriksiga. GBLUP ja RKHS viidi läbi funktsiooni 'kinship.BLUP' abil R-paketi rrBLUP versioonis 4.4 (Endelman, 2011), kusjuures K.metod oli vastavalt GBULP ja RKHS puhul 'RR' ja 'GAUSS'.

Selles uuringus eeldasid BL, wBSR ja Bayes C järgmist lineaarse regressiooni mudelit:

Image

kus y i on fenotüübiline väärtus, P on markerite arv, γ p on indikaatormuutuja, mis võtab 0 või 1, x ip on markeri p genotüüp, β p on markeri p mõju ja ɛ i on jääk . Indikaatormuutuja γ p on fikseeritud väärtusele 1, välja arvatud wBSR. ɛ i eeldatakse normaaljaotuse keskmist = 0 ja dispersiooni =

Image
. Teatud muutujate puhul oli prioonide jaotus erinev sõltuvalt meetodist. BL puhul eeldati, et β p järgib

Image

kus

Image
määrab β p kokkutõmbumise suuruse ja
Image
on järelejäänud dispersioon.
Image
eeldati, et järgib

Image

kus Inv - G tähistab pöördvõrdelist gammajaotust ja λ 2 on normaliseerimisparameeter, mis määratleb jaotuse

Image
, ja eeldas, et järgib

Image

Punktis BL on ϕ ja ω hüperparameetrid. Selles uuringus fikseeritakse fixed väärtusega 1, samas kui testiti viit väärtust:: 0, 001, 0, 01, 0, 1, 1 ja 5. wBSR-is eeldatakse, et γ p

Image

Kui γ p = 1, siis eeldati, et β p järgib

Image

siis eelmine oli

Image

kus χ −2 tähistab skaalatud pöördvõrdelist chi-ruutjaotust, v on vabadusaste ja S 2 on skaalaparameeter. WBSR-is on v , S2 ja π hüperparameetrid. Selles uuringus fikseeritakse v ja S 2 väärtusel 1, kusjuures testiti viit väärtust π : 0, 01, 0, 1, 0, 2, 0, 5 ja 1. Bayes C puhul eeldati, et β p

Image

kus p p on indikaatormuutuja, mis määrab kindlaks, kas markeriefekt sisaldub regressioonimudelis ( p p = 1) või mitte ( p p = 0), eelneva jaotusega

Image

Erinevalt BL-st ja wBSR-st on kõigil SNP-efektidel Bayeses C ühine dispersioon σ 2. Varasem σ 2 jaotus oli järgmine:

Image

Testitud hüperparameetrite komplektid olid samad, mis wBSR-is. BL, wBSR ja Bayes C puhul viidi läbi pesastatud viiekordne ristvalideerimine, et määrata optimaalne hüperparameetri väärtus, mis näitas väikseimat keskmist ruutu. Kasutasime VIGoR-i, mis põhineb variatsionaalsetel Bayesi algoritmidel (Onogi ja Iwata, 2016). RF on ansamblite õppimismeetod, mis kasutab otsustuspuude kombinatsiooni, millest igaüks genereeritakse alglaadimissüsteemi poolt valitud SNP-markerite alamhulgast. RF teostati R-paketi randomForest versioonis 4.6 funktsiooni 'randomForest' abil koos vaikeseadete sätetega, nimelt prooviti iga jaotuse korral proovitud muutujate arvu m proov = p / 3, puude arvu = 500 ja sõlme minimaalset suurust = 5. GS-mudelite ennustatava täpsuse hindamiseks viisime läbi 10-kordse ristvalideerimise. Tegime iga tunnuse jaoks 100 kordust ja iga statistilise meetodi jaoks kasutati sama korda. Ennustatavat täpsust mõõdeti Pearsoni korrelatsioonikordajana ennustatud ja tegelike fenotüübiliste väärtuste vahel, kasutades R funktsiooni “cor.test”. Ennustamismeetodite täpsust võrreldi Tukey testi kasutades R funktsioonide 'aov' ja 'TukeyHSD' abil ( P <0, 05).

Tunnuse eraldamise simuleerimine

Me kasutasime Yamamoto jt simulatsioonimeetodit. (2016). Tomati genoomi simulatsioonis esindas Shirasawa et al. (2010), prügikasti suurusega 0, 1 cM. Rekombinatsioonide arv igas kromosoomis määrati, kasutades juhuslikku muutujat, mis saadi Poissoni jaotusest. Iga kromosoomi jaoks seati ahelduskaardi pikkuseks (Morganites) Poissoni jaotuse lambda parameeter (st juhusliku muutuja eeldatav väärtus). Iga rekombinatsiooni positsioon kromosoomis määrati ühtlase jaotuse järgi. Simuleeritud genoomi genotüübi andmete konstrueerimiseks määrati iga markeri genotüüp simuleeritud genoomis lähima prügi haplotüübi põhjal. Tunnuste eraldamise ennustamiseks neljas järglaspopulatsioonis loodi iga populatsiooni jaoks 1000 simuleeritud genoomi. Kõik simulatsioonianalüüsid kirjutati ja viidi läbi R-vormingus (//www.r-project.org/, täiendav meetod). GEBV-sid ja täheldatud fenotüübilisi väärtusi populatsioonide vahel võrreldi Tukey testiga, kasutades R funktsioone 'aov' ja 'TukeyHSD' ( P <0, 05).

Tulemused

F 1 tomatisordi iseloomustus

96 suureviljalise F 1 tomatisordi fenotüüp määrati lahustuva kuivaine sisalduse ja vilja kogumassi järgi (joonis 1a). Hinnanguline pärilikkus oli vastavalt 0, 626 ja 0, 248 lahustuvate kuivainete sisalduse ja vilja kogumassi osas. Tugev rahvastiku struktuur võib põhjustada GS-mudelite ebastabiilset ennustatavust (Riedelsheimer jt, 2013). Sortide geneetilise populatsiooni struktuuri analüüsimiseks viisime läbi PCA 337 SNP-markeriga ja tugevat populatsioonistruktuuri ei leitud (joonis 1b). LD ulatus mõjutab ka ennustatavust, kuna GS-i mudelid on loodud kvantitatiivsete tunnuste lookuste efektide hõivamiseks, kasutades LD-i markerite ja kvantitatiivsete tunnuste lookuste vahel (Habier et al., 2007, 2013). Sordides oli hinnanguline LD suurus 337 SNP-markerite põhjal 16 cM (joonis 1c).

Image

Käesolevas uuringus kasutatud 96 suureviljalisi F 1 tomatisorte. a ) Lahustuvate kuivainete sisalduse ja vilja kogumassi fenotüübiline jaotus. Mustad punktid tähistavad sorte, mida järglaspopulatsioonide väljaarendamiseks kasutatakse. Väärtused on fenotüüpse vaatluse 2-aastased keskmised väärtused. Katkendjooned tähistavad iga tunnuse keskmist väärtust. b ) Sordi põhikomponentide analüüs, mis põhineb 337 SNP genotüübil. Mustad punktid tähistavad sorte, mida järglaspopulatsioonide väljaarendamiseks kasutatakse. c ) Joonise tasakaalustamatuse väärtuste ( r 2 ) joonis kaardikauguse suhtes. Horisontaalne kriipsjoon tähistab baasjoone r 2 väärtusi, mis põhinevad r 2 väärtuste jaotuse 95. protsentiilil linkimata markerite paari vahel. Kõver näitab lokaalset polünoomi sobivust, kasutades tuuma silumisregressiooni.

Täissuuruses pilt

GS mudeli ehitus

GS-mudelite konstrueerimiseks kasutati F1 sortide genotüübi ja fenotüübi andmeid (joonised 1a ja b). Testisime kuut statistilist meetodit ja hindasime prognoositavust 10-kordse ristvalideerimise abil (joonis 2). Prognoositavus oli lahustuvate kuivainete sisalduse osas suurem kui puuvilja kogumassi korral, mis vastas hästi kõrgemale hinnangulisele lahustuvate kuivainete sisalduse hinnangulisusele. Lahustuvate tahkete ainete sisalduse korral näitasid GBLUP ja BL oluliselt kõrgemat ennustatavust ( P <0, 05), võrreldes selle tunnuse teiste meetoditega, samas kui RF näitas madalaimat ennustatavust. Vilja kogumassi osas näitasid mittelineaarsed meetodid (st RKHS ja RF) oluliselt suuremat ennustatavust ( P <0, 05) kui lineaarsed meetodid, mis viitab sellele, et tunnusele aitavad kaasa mitteaditiivsed geneetilised tegurid.

Image

10-kordse ristvalideerimise tulemus GS-mudelitel, kus treenivas populatsioonis kasutati 96 suureviljalisi F 1 tomatisorte. Pearsoni korrelatsioonikoefitsientide fenotüüpiliste väärtuste ja genoomsete hinnanguliste aretusväärtuste vaheline Boxplot. GBLUP, genoomse parima lineaarse erapooletu ennustus; BL, Bayesian Lasso; wBSR, kaalutud Bayesia kahanemise regressioon; RKHS, reprodutseerides Kernel Hilberti ruumide regressiooni; RF, juhuslik mets. Erinevad väiketähed näitavad olulisi erinevusi Tukey testiga ( P <0, 05).

Täissuuruses pilt

Tunnuste segregatsiooni ennustamine

Aretuspopulatsiooni vanemlik valik on aretuse kujundamise kriitiline samm. Iwata jt. (2013) pakkus välja meetodi, mis ennustas tunnuste eraldamist, kasutades GS-mudeleid ja arvutuslikult simuleeritud pesitsuspopulatsiooni, ning demonstreeris selle tõhusust Jaapani pirni empiiriliste andmetega. Selle meetodi efektiivsuse kinnitamiseks tomatis kavandasime tunnusjoonte eraldamise ennustamiseks neli järglaste populatsiooni: SL10 × SL65, SL10 × SL75, SL65 × SL88 ja SL75 × SL88. Vanemlikud sordid valiti järgmiste kriteeriumide alusel: fenotüübilised väärtused olid vähemalt ühe tunnuse keskmistest väärtustest suuremad (joonis 1a) ja valitud sordid olid PCA tulemustes üksteisest geneetiliselt kaugel (joonis 1b). Simuleerisime iga populatsiooni kohta 1000 isendit ja arvutasime GEB-väärtused, kasutades GS-mudeleid (joonis 2). Prognoositavaid tulemusi võrreldi täheldatud tunnuste segregatsioonidega (joonisel 3 täheldatud). Järglaste populatsioonis täheldatud fenotüübilised väärtused olid mõlema tunnuse korral madalamad kui sortidel (treeniv populatsioon) (joonised 1a ja 3). See võib kajastada sortide (st aastad 2011 ja 2014) ja järglaspopulatsioonide (st 2015) kasvutingimuste erinevusi. Sellegipoolest olid prognoositavad ja täheldatud tunnuste segregatsioonid järglaste keskmistes populatsioonides keskmiste fenotüüpide väärtuste järjekorra osas kooskõlas (vt allpool).

Image

Järglaste populatsioonide ennustatud ja täheldatud tunnuste segregatsiooni võrdlus. Lahustuvate tahke aine sisalduse ( a ) ja puuvilja kogumassi ( b ) eristamiseks mõeldud kastide proovitükid. Prognoositud tunnusjoonte eraldamine põhines 1000 simuleeritud genoomi genoomilisel hinnangulisel aretusväärtusel (GEBV). GEBV arvutamiseks kasutati genoomse valiku (GS) mudeleid, mis põhinesid 96 suureviljalisel F 1 tomatisordil. Isikute arv täheldatud tunnusjoonte segregatsiooni osas igas järglaspopulatsioonis oli vastavalt 21, 23, 23 ja 23 vastavalt SL10 × SL65, SL10 × SL75, SL65 × SL88 ja SL75 × SL88 korral. Iga paneeli y- tähe sildid tähistavad GS-mudeli konstrueerimiseks kasutatud statistilist meetodit, välja arvatud 'Vaatletud', mis näitab täheldatud fenotüübilist jaotust. GBLUP, genoomse parima lineaarse erapooletu ennustus; BL, Bayesian Lasso; wBSR, kaalutud Bayesia kahanemise regressioon; RKHS, reprodutseerides Kernel Hilberti ruumide regressiooni; RF, juhuslik mets. Erinevad väiketähed näitavad olulisi erinevusi Tukey testiga ( P <0, 05).

Täissuuruses pilt

SL65 ja SL75 lahustuvate tahkete ainete sisalduse fenotüübilised väärtused olid väga sarnased (vastavalt SL65 ja SL75 korral 6, 45 ja 6, 50; joonis 1a). Kuid simulatsioonis ennustati, et SL75 genereerib järglasi, mille fenotüübiline väärtus on keskmiselt oluliselt kõrgem ( P <0, 05) kui SL65-ga, kui ristuda SL10 või SL88-ga (joonis 3a). Vaadeldud tunnuste segregatsioon toetas seda järeldust (joonisel 3a 'täheldatud'). Vilja kogumassi osas ennustasid lineaarsed mudelid (st GBLUP, BL, wBSR ja Bayes C), et SL65 × SL88 genereerib järglasi, mille fenotüübiline väärtus on oluliselt kõrgem kui SL75 × SL88, samas kui mittelineaarsed mudelid (st RKHS ja RF) väike või ebaoluline erinevus (joonis 3b). Täheldatud omaduste segregatsioon sarnanes mittelineaarsete mudelite ennustatud tulemusega (joonis 3b 'vaadeldud'). GS-mudelite hinnanguline ennustatavus ristvalideerimisel oli mittelineaarsete meetodite puhul oluliselt suurem kui lineaarsete meetodite puhul (joonis 2). Seega näitas vilja kogumassi tulemus, et ristvalideerimisega saab tõhusalt hinnata GS-mudeli ennustatavust. Kuid puuviljade kogumassi osas olid ennustused vaatlustega tugevalt vastuolus. SL10 × SL65 keskmine väärtus oli prognoosimisel teistest populatsioonidest märkimisväärselt kõrgem, samas kui see oli oluliselt madalam kui SL65 × SL88 ega erinenud vaatlustes teistest populatsioonidest oluliselt (joonis 3b).

Järglaste fenotüübi ennustamine

Uurisime, kas GS-mudelid olid järglaste populatsioonide fenotüüpide ennustamiseks tõhusad. Kõigil neljal järglaspopulatsioonil isenditel genotüüpiti sama 337 SNP-markerit, mida kasutati GS-mudeli konstrueerimiseks. Sordi ja nende järglaste geneetiliste suhete kokkuvõtmiseks tegime PCA ja leidsime, et järglased olid geneetiliselt erinevad, kuid nende vanemate vahel vahepealsed (joonis 4). GEBV arvutati kõigi järglaste jaoks, kasutades GS-mudeleid, mis olid konstrueeritud 96 originaalsordi järgi (joonis 2). GEBV-de ja fenotüübiliste väärtuste vahelised korrelatsioonikoefitsiendid olid võrreldavad ristvalideerimise hinnangulise ennustatavusega (vt joonis 2 ja tabelis 1 „Kõik”). See näitas, et ristvalideerimine võib täpselt hinnata GS-mudelite eeldatavat ennustatavust. Lisaks olid korrelatsioonikoefitsiendid võrreldavad tunnuste hinnangulise pärilikkusega järglaste populatsioonis (0, 599 lahustuva kuivaine sisalduse ja 0, 443 vilja kogumassi korral). Seega kinnitasime, et GS-mudelid oskasid fenotüüpe tõhusalt ennustada (tabelis 1 ja joonisel 5 on märgitud „kõik”). Uurisime GS-i mudeli ennustatavust iga järglaskonna kohta (täiendavad joonised S1 ja S2). Geneetiline varieeruvus oli igas populatsioonis selgelt madalam kui treenitud populatsioonis (st kõigis 96 sordis; joonis 4). Seetõttu oli see keeruline väljakutse. GS-mudeli ennustatavus erines vanemkombinatsiooni ja tunnuse järgi (tabel 1 ja täiendavad joonised S1 ja S2). SL10 × SL75 puhul näitasid GS-mudelid mõlema tunnuse ennustatavust, samas kui SL65 × SL88 puhul polnud need tõhusad. SL10 × SL65 puhul näitasid lahustuvate kuivainete sisalduse GS mudelid suurt ennustatavust, samas kui puuviljade kogumassi prognoositavus oli negatiivne. SL75 × SL88 puhul näitasid GS-mudelid puuviljade kogukaalu, kuid mitte lahustuvate kuivainete sisalduse (välja arvatud BL) osas etteaimatavust. Ehkki sortidel põhinevad GS-mudelid olid järglaste fenotüüpide ennustamiseks kasulikud, varieerus efektiivsus tugevalt sõltuvalt ristkombinatsioonidest ja tunnustest.

Image

96 suureviljaliste F 1 tomatisordi ja nelja järglaste populatsiooni põhikomponentide analüüs, mis põhineb 337 SNP-markeril. Nooled tähistavad järglaspopulatsioonide vanemlikke sorte.

Täissuuruses pilt

Täissuuruses tabel

Image

Fenotüüpiliste ja genoomsete hinnanguliste aretusväärtuste (GEBV) võrdlus järglaste populatsioonides. GEBV arvutamiseks kasutati genoomse valiku (GS) mudeleid, mis põhinesid 96 suureviljalise F 1 tomatisordil. Iga paneeli pealkiri näitab GS-mudeli ehitamiseks kasutatud statistilist meetodit. GBLUP, genoomse parima lineaarse erapooletu ennustus; BL, Bayesian Lasso; wBSR, kaalutud Bayesia kahanemise regressioon; RKHS, reprodutseerides Kernel Hilberti ruumide regressiooni; RF, juhuslik mets.

Täissuuruses pilt

Arutelu

GS-is on ideaalne täielik õdede-vendade treeningpopulatsioon, mis on geneetiliselt lähedal pesitsuspopulatsioonile (Habier jt, 2007; Riedelsheimer jt, 2013; Rutkoski jt, 2015a). Kuid selline elanikkond on harva kättesaadav. Uue populatsiooni väljatöötamine GS-i mudellenduse jaoks pole tavaliselt teostatav, seetõttu kasutatakse aretusprojektide asemel olemasolevaid populatsioone, näiteks pesitsusliinid. Seetõttu kasutasime treeningpopulatsioonina 96 suureviljalisi F 1 tomatisorte, mida oli iseloomustatud eelmises uuringus (Yamamoto jt, 2016) (joonis 1). Juba ammu on teada, et tomati lahustuvate kuivainete sisalduse ja puuvilja kogumassi vahel on negatiivne korrelatsioon. Kuid uuritud sortides negatiivset korrelatsiooni ei täheldatud ( r = 0, 02). Selle põhjuseks võib olla puuviljade kogumassi vähene pärilikkus käesolevas uuringus (vt eespool) või nii kasutatavate sortide lahustuvate kuivainete sisalduse kui ka saagikuse osas sordivalik, nagu on soovitanud Higashide jt. (2012). Yamamoto jt. (2016) tuvastasid 16 782 DNA-markerit, neist 337 kasutati käesolevas uuringus (lisatabel S2). Tegeliku aretusprogrammi puhul on vähem markerite kasutamine kulutõhusam. Näiteks oli käesolevas uuringus sisalduva 96 sordi ( n = 337) genotüüpimise hind umbes veerand eelmise uuringu kuludest ( n = 16 782; Yamamoto jt, 2016). Vähema hulga markerite kasutamine võib viia elanikkonna geneetilise arhitektuuri kallutamiseni (Heslot jt, 2013). Kuid käesolevas uuringus olid PCA ja LD tulemused (joonised 1b ja c) väga sarnased eelmise uuringu tulemustega (Yamamoto et al., 2016). See näitas, et 337 valitud markeril ei olnud märgatavat tõestamise eelarvamust. Teine erinevus praeguse ja eelmise uuringu vahel oli kärpimishooaeg. Tomati kasv soojal aastaajal (käesolev uuring) on ​​vähem stabiilne võrreldes jaheda aastaajaga (eelmine uuring). Sellegipoolest näitasid käesoleva uuringu GS-mudelid head ennustatavust (joonised 2 ja 5 ning tabel 1).

Varasemates uuringutes viidi GS-i potentsiaalne hindamine tomatikasvatuses ristvalideerimisele tuginedes treeningandmetele ja see näitas, et seda saab kasutada puuviljade kvaliteediga seotud agronoomiliselt oluliste tunnuste (Duangjit et al., 2016) ja saagikustulemuste aretamisel (Yamamoto jt, 2016). Käesolevas uuringus hindasime GS-i potentsiaali, kasutades järelpärimisi, mis on saadud ristsirgedest koolituspopulatsioonis, ja näitasime, et GS-i mudelid oskasid ennustada fenotüüpe (tabel 1 ja joonis 5) ning vanemlikke kombinatsioone, mis tekitasid kõrgema järglaskonna, kasutades Iwata et al. (2013) tomatis (joonis 3). Kuigi need tulemused näitasid, et GS on tomatikasvatusprogrammi kavandamisel kasulik, ei olnud GS-i mudelid alati tõhusad. Näiteks ei ennustanud GS-mudelid SL65 × SL88 lahustuvate tahkete ainete sisaldust täpselt (tabel 1 ja lisajoonis S1). Vilja kogumassi SL10 × SL65 korral olid GEBV-de ja fenotüübiliste väärtuste vahelised korrelatsioonid negatiivsed (tabel 1 ja lisajoonis S2), võib-olla tingitud populatsiooni-spetsiifilisest genotüübi-keskkonna interaktsioonist katse erinevatel aastatel. Kui see hüpotees on tõene, lähevad ennustatud ja tegelikud tähelepanekud ühtlustumisele, kuna rohkem isikuid hinnatakse või fenotüüpitakse. Loogilisem seletus on aga see, et kvantitatiivsed tunnus lookused jagunevad treenimise ja järglaste populatsioonide vahel erinevalt, millest on teatatud nii teoreetilistes kui ka empiirilistes uuringutes (Riedelsheimer jt, 2013; Rutkoski jt, 2015a; Duangjit jt.)., 2016). Seetõttu tuleks treeningpopulatsioone ja GS-mudeleid uuendada, kui treenimis- ja aretuspopulatsioonide geneetiline suhe on dramaatiliselt muutunud (Rutkoski jt, 2015a; Bassi jt, 2016). Me kinnitasime, et kuigi GS-mudelid olid kasulikud, tuleb nende kasutamisel pikaajalises valikuprotsessis olla tähelepanelik.

Selles uuringus on eriti tähelepanuväärne, et GS-mudeli tõhusus kinnitati, isegi kui katse viidi läbi väikeses mahus. Aiakultuurides, näiteks tomatis, nõuab suure hulga ridade kasvatamine tohutut rajatist ja liiga suuri kulusid. Meie uuring näitas, et GS võib vähendada tomatikasvatuseks vajalikke kulutusi. Ehkki GS-i testimiseks tegelikes aretusprogrammides on vaja rohkem uuringuid, tõstavad meie tulemused esile GS-i kui tulevase tomatikasvatuse paljutõotavat strateegiat.

Andmete arhiveerimine

Hoiustatavad andmed puuduvad.

Täiendav teave

PDF-failid

  1. 1

    Täiendav teave

Exceli failid

  1. 1

    Täiendavad tabelid

    Täiendav teave on lisatud sellele dokumendile Heredity veebisaidil (//www.nature.com/hdy)