Ani-1, 20 miljoni suurune arvandmete komplekt orgaaniliste molekulide tasakaalunihkega konformatsioonidest. | teaduslikud andmed

Ani-1, 20 miljoni suurune arvandmete komplekt orgaaniliste molekulide tasakaalunihkega konformatsioonidest. | teaduslikud andmed

Anonim

Õppeained

  • Kombinatoorsed raamatukogud
  • Arvutuskeemia
  • Tiheduse funktsionaalne teooria
  • Meetodi arendamine

Abstraktne

Üks kaasaegse teoreetilise keemia suurtest väljakutsetest on lähenemisviiside kavandamine ja rakendamine, mis kiirendavad ab initio meetodeid täpsust kaotamata. Masinõppe (ML) meetodid on kujunemas kui võimas lähenemisviis ülekantavate atomistlike potentsiaalide eri vormide konstrueerimiseks. Neid on edukalt rakendatud erinevates rakendustes keemia, bioloogia, katalüüsi ja tahkisfüüsika alal. Need mudelid sõltuvad aga suuresti nende paigaldamisel kasutatud andmete kvaliteedist ja kvantiteedist. Väga paindlike ML-potentsiaalide, näiteks närvivõrkude, paigaldamine maksab oma kuludega: nende mudelite nõuetekohaseks koolitamiseks on vaja tohutul hulgal võrdlusandmeid. Tegeleme selle vajadusega, pakkudes juurdepääsu suurele arvutuslikule DFT andmebaasile, mis koosneb enam kui 20 M tasakaalulisest konformatsioonist 57 462 väikese orgaanilise molekuli jaoks. Usume, et sellest saab uus standardne mõõdupuu praeguste ja tulevaste meetodite võrdlemiseks ML-i potentsiaalses kogukonnas.

Metaandmete kokkuvõte

Kujunduse tüüp / tüübid
  • andmebaasi loomise eesmärk
Mõõte tüüp (tüübid)

  • füüsikalis-keemiline iseloomustus
Tehnoloogia tüüp (tüübid)

  • arvutuslik modelleerimise tehnika
Teguri tüüp (tüübid)

  • orgaaniline väike molekul
Näidisnäitaja (d)

Laadige alla metaandmete fail

Masinaga juurdepääsetav metaandmete fail, mis kirjeldab esitatud andmeid (ISA-saki vorming)

Taust ja kokkuvõte

Aatomaalsete ja molekulidevaheliste interaktsioonide täpsed kirjeldused on usaldusväärsete arvutisimulatsioonide nurgakivi biofüüsikas, keemias ja materjaliteaduses. Viimase 50 aasta jooksul oleme teinud tohutuid edusamme teoreetiliste meetodite ja tarkvaravahendite väljatöötamisel, mille eesmärk on kirjeldada keerukamaid süsteeme ja võimaldada pikemat ajakava. Kohn-Shami tihedusfunktsionaalne teooria (lühidalt KS-DFT või DFT) on arvutusfüüsikas ja keemias ülekaalukalt populaarseim elektroonilise struktuuri meetod 1 . DFT on leidnud rakendusi paljudes süsteemides orgaanilise keemia 2, 3, bioloogia 4, katalüüsi 3, 5 ja tahkiskeemia 6, 7 alal . Laiendatud süsteemide keemiliste reaktsioonide kirjeldamiseks kombineeritakse seda sageli ka molekulaarse dünaamika (AIMD) ja klassikalise jõuväljadega (kvantmehaanika-molekulaarmehaanika (QM-MM)).

Ehkki DFT arvutused on tänapäevastes superarvutites taskukohaseks muutunud, seisame silmitsi dilemmaga: N-elektronide süsteemi esindavad standardsed arvutuslikud algoritmid nõuavad O (N 2 ) salvestust ja O (N 3 ) aritmeetilisi operatsioone. Sellest O (N 3 ) keerukusest on saanud kriitiline kitsaskoht, mis piirab võimalusi uurida suuremaid realistlikke füüsilisi süsteeme, aga ka tegeliku eksperimendi jaoks vajalikke pikemaid skaala. Järelikult on masinõppe (ML) abil atomistlike potentsiaalide arendamisel tehtud palju edusamme 8, 9 . Masinõppe algoritmide madal arvuline keerukus ja suur täpsus muudavad need ab-initio ja DFT meetodite praktilise asendajana väga atraktiivseks. Tänu nende tähelepanuväärsele võimele leida andmete vahel keerukaid seoseid, teostavad need masinõppitud mudelid paljudel juhtudel füüsiliselt usaldusväärseid lähendusi (nagu jõuväljad) ja meetodeid, vähendades samal ajal ka konkreetse rakenduse jaoks vajalikku arvutusaega 9, 10, 11, 12, 13, 14, 15 . Need mudelid sõltuvad suuresti nende paigaldamisel kasutatavate andmete kvaliteedist ja kvantiteedist, mida nimetatakse ka koolituseks. Neuraalvõrgud on paindliku funktsionaalse vormi tõttu väga tõhusad ja tõhusad referentstreeningu andmete modelleerimisel. See paindlikkus maksab aga oma kuludega: nende mudelite nõuetekohaseks koolitamiseks on vaja tohutul hulgal võrdlusandmeid.

Keemilise kosmoseprojekt 16 loetles arvutuslikult kõik võimalikud orgaanilised molekulid kuni teatud suuruseni, mille tulemusel loodi GDB andmebaasid. Nende uusim andmebaas GDB-17 17 sisaldab 166, 4 miljardit molekuli, milles on kuni 17 aatomit C, N, O, S ja halogeene. Kõik molekulid järgivad valentsuse reegleid ja filtreeritakse ebastabiilsete alamstruktuuride, sünteesimata ja pingestatud topoloogiate saamiseks. GDB molekule hoitakse SMILES [www.opensmiles.org] stringidena, mis tähistavad molekuli koostist ja ühenduvust.

GDB andmebaasid olid QM7 andmestiku 18 loomisel põhilised, mis on üks esimesi võrdlusaluste andmekogumeid atomistlike ML potentsiaalide treenimiseks. QM7 andmestik koosneb 7 165 energia minimeeritud (tasakaalustatud) molekulist, mis on arvutatud funktsionaalse PBE0-ga. Kõik struktuurid on GDB-13 (peaaegu 1 miljardi orgaanilise molekuli vanem GDB andmebaas) väike alamhulk, mis koosneb kuni 7 raske aatomiga C, N, O ja S. molekulidest. Hiljem laiendati QM7, lisades 13 täiendavat omadust, nagu piiriäärsed molekulaarsed orbitaalienergiad, dipoolmomendid, polariseeritavus ja ergutusenergiad 19 . Esimeses QM7-l treenitud ML-mudelis kasutati tuumaharja regressiooni Coulombi maatriksiesitusega, mis ennustas pihustusenergiat keskmise absoluutveaga (MAE) 9, 9 kcal × mol- 1 . Seda viga vähendati kiiresti väärtusele 3, 3 kcal × mol- 1 (viide 20) ja lõpuks oli see alla 1 kcal × mol- 1 (viide 21).

QM9 on ehk kõige tuntum võrdlusandmete kogum 17, 22 . See koosneb 133, 885 tasakaalulisest orgaanilisest molekulist, mis sisaldavad kuni üheksat rasket aatomit (CONF) andmebaasist GDB-17. Lisaks energia miinimumidele teatab see vastavatest harmoonilistest sagedustest, dipoolmomentidest, polariseeruvusest, samuti energiadest, entalpiatest ja atomiseerimise vabadest energiatest. Kõik omadused arvutati kvantkeemia tasemel B3LYP / 6–31 G (2df, p). G4MP2 teooria täpsemal tasemel arvutati ka alamrühm 6, 095 põhiseaduse isomeeri QM9-s, mis vastab bruttovalemit C7H10O2. QM9 andmestikuga 20, 21, 23, 24 võrreldi erinevaid molekulaarseid esitusi ja ML-meetodeid. Vaadake ka hiljutist meetodiuuringut 23 . Hiljem saavutas Message Passing Neural Network (MPNN) 10 keemilise täpsuse 11-st 13-st sihtomadusest QM9 andmestikus. Lõpuks, hierarhiliselt interakteeruvate osakeste närvivõrgu (HIP-NN) 15 mudel, Lubbers et. al . saavutatud tipptasemel täpsus koguenergia ennustamisel kõigest 0, 26 kcal × mol- 1 MAE.

Kõigi QMx-i andmekogumite ühine tunnus on see, et nad uurivad keemilisi vabadusastmeid ainult energiaga minimeeritud (tasakaalustatud) molekulaarsete konfiguratsioonide kohta teabe edastamise kaudu. Nendes molekulides on kõigi aatomite jõud võrdsed nulliga. Seetõttu tehti suuri jõupingutusi tasakaalustamatute andmekogumite loomiseks, kasutades ab initio molekulaarse dünaamika (AIMD) simulatsioone. C7O2H10–17 andmestik sisaldab C7O2H10 113 isomeeri AIMD trajektooride energiaid (igaüks 5 k kaadrit). Kõigis simulatsioonides kasutati DFT / PBE teooria taset ja need viidi läbi temperatuuril 500 K. Hiljuti Schutt et al. 21 ja Chmiela et al. 25 andis välja MD17 andmestiku, mis koosneb kaheksast AIMD / PBE + vdW-TS simulatsioonist väikeste orgaaniliste molekulide jaoks. Kõik need koosnevad MD trajektoorist ühe molekuli jaoks vahemikus ~ 100 K kuni 900 K kaadrit. Vastupidiselt QMx-andmekogumitele uurivad need MD-andmekogumid konformatsiooniruumi, hoides kompositsiooni fikseerituna.

Võtsime hiljuti kasutusele närvivõrgu potentsiaali (NNP) nimega ANI-1, mis on esimene orgaaniliste molekulide NNP, mis on näidanud, et jõuab molekulaarsüsteemidesse ka väljaspool treeningkomplekti. Nagu esitatud, treeniti ANI-1 potentsiaal andmekogumil, mis hõlmab nii konformatsioonilist kui ka konfiguratsioonilist ruumi, mis on ehitatud väikestest kuni 8-raskase aatomiga orgaanilistest molekulidest. Näitame selle rakendatavust palju suuremates süsteemides, kuni 50 aatomit, sealhulgas tuntud ravimimolekulid ja juhuslik valik molekule GDB-11 (viited 26, 27) andmebaasist koos 10-raske aatomiga. ANI-1 näitab erakordselt ennustavat võimsust 10 raske aatomiga katsekomplekti korral, kui RMSE ja DFT suhtelised energiad on nii madalad kui 0, 57 kcal × mol −1, kui võtta arvesse ainult molekulaarkonformatsioone, mis jäävad 30 kcal × mol −1 alla energia miinimumist. iga molekul. Hiljuti avaldasid Gastegger et. al. 28, näitasid sarnaseid tulemusi suurte orgaaniliste süsteemide korral, mis olid killustatud väiksemateks molekulideks ja DFT andmed genereeriti lennult treenimiseks. Seda tehti aktiivõppes, mille eesmärk on MD simulatsiooni ajal koolitada potentsiaal konkreetsesse süsteemi. Vahetult pärast seda kasutasid Huang ja Von Lilienfeld 29 ML-mudeli treenimiseks killustamisskeemi, et ennustada suurte jäikade ravimimolekulide energiat. Mõlemad uuringud kinnitavad väidet, et suurte süsteemide füüsika kohta saab teavet väikeste molekulide andmekogumitest.

Selles andmekirjelduses kajastame suurt hulka orgaaniliste molekulide tasakaalustamatuse DFT koguenergia arvutusi. Kokku pakume GDB andmebaasist 26, 27 57 462 molekuli ligipääsu ~ 20 M molekulaarkonformatsioonide koguenergiatele ~ 20 M molekuli konformatsioonides, mis proovib korraga nii keemilisi kui ka konformatsioonilisi vabadusastmeid. Kuna moodsate ML-meetodite täpsus tasakaalus olevate molekulide jaoks QM9 etalonil saavutas 1 kcal × mol −1, annab ANI-1 100x rohkem andmeid ja palju keerukama ülesande õppida. Seetõttu loodame, et sellest saab uus standardne võrdlusalus praeguste ja tulevaste meetodite jaoks masinõppitud potentsiaalses kogukonnas. Veelgi olulisem on see, et see on kindel alus tulevaste üldotstarbeliste masinõppitud potentsiaalide arendamiseks, pakkudes ammendavat edumaa andmete genereerimiseks, mida saab täiendada tulevaste andmekogumitega, mis hõlmavad keemilise ruumi asjakohaseid piirkondi.

Meetodid

QM arvutused

Kõik elektroonilise struktuuri arvutused tehakse funktsionaalse tiheduse ωB97x (viide 30) ja Gaussian 09 (viide 32) elektroonilise struktuuri paketi 6–31 G (d) baaskomplekti 31 abil. 97B97x on hübriid-meta-GGA funktsionaalne 30, mis on osutunud keemiliselt täpseks võrreldes kõrgetasemeliste CCSD (T) arvutustega 33, 34, 35, 36, 37 .

Molekulaarse geomeetria genereerimine

GDB-11 andmebaas 26, 27 pakub ammendavat otsingut SMILES [www.opensmiles.org] stringivormingus tarnitud stabiilsete ja keemiliselt elujõuliste molekulide kohta, mis sisaldavad C, N, O ja F aatomeid kuni 11 neist ' rasked aatomid. Vesinikuaatomid lisatakse RDKiti kemokormaatika tarkvarapaketi [www.rdkit.org] kaudu, et muuta molekulaarstruktuurid, mis on laengu suhtes neutraalsed ja millel on üksik elektrooniline põhiseisund. Siin esitatud ANI-1 andmekogum on koostatud GDB-11 andmebaasi alamhulga ammendatud valimi moodustamisel, mis sisaldab 1 kuni 8 raske aatomiga molekule ja piirab aatomiliike C, N ja O-ga. See jätab alamhulga 57 947 lähtemolekuli. Kõik molekulid on neutraalsed ja ühekordses elektroonilises olekus. Konformatsiooni genereerimise protsess viiakse läbi viies etapis, alustades neist 57 947 molekulist. Sammud on loetletud allpool ja neid on kvalitatiivselt kujutatud joonisel 1.

Image

Skeem 57 462 molekuli mittetasakaaluliste konformatsioonide genereerimiseks GDB-11 andmebaasist. Selle skeemi eesmärk on genereerida potentsiaalse pinna "aken" iga optimeeritud tasakaalustruktuuri ümber.

Täissuuruses pilt

Ülalkirjeldatud alamkomplektist GDB-11 pärit naeratusstringe kasutatakse RDKiti abil 3D-konformatsioonide genereerimiseks. Ka RDKiti puhul on kõik struktuurid vesinikega küllastunud, nii et mõlemal on laeng 0 ja kordsus 1. Seejärel 3D-struktuurid optimeeritakse statsionaarsesse punkti, kasutades MMFF94 jõuvälja 38, nagu on rakendatud RDKitis.

Valitud DFT või ab-initio teooria tasemel optimeeritakse geomeetriat seni, kuni energia miinimumid lähenevad. Optimeerimisel kasutatakse Gaussian 09 vaikemeetodit ja lähenemiskriteeriume. Saadud geomeetriad vastavad esimesele statsionaarsele punktile, mis on saavutatud potentsiaalsele pinnale, ja vastavad mõnele kohalikule miinimumi või harvemal juhul sadulapunktile. Kui lähendamine ebaõnnestub, siis struktuuri andmekogusse ei kaasata. Selles etapis ei õnnestunud 485 (0, 84% koguarvust) molekulidel konstrueeruda struktuuri optimeerimise käigus. Lõplik andmekogum on üles ehitatud nende 57 462 tasakaalu geomeetria põhjal. Lõpuks arvutatakse iga 57 462 struktuurilt optimeeritud molekuli jaoks normaalrežiimi arvutus pakendis Gaussian 09, et saada normaalrežiimi koordinaadid ja nendega seotud jõu konstandid. Selleks kasutatakse UltraFine DFT ruudustiku funktsiooni densityB97x tihedusega.

Tavalise režiimi proovivõtt (NMS)

Normaalse režiimi proovide võtmiseks N- aatomitega energia minimeeritud molekulil tuleb kõigepealt komplekt N f- normaalrežiimi koordinaate, Q = {q1, q2, q3,

.

qNf}, arvutatakse teooria soovitud ab-initio tasemel, kus Nf = 3 N a −5 lineaarsete molekulide korral ja N f = 3 N a −6 kõigi teiste puhul. Vastavad jõukonstandid K = {K1, K2, K3, ⋯, KNf} saadakse Q-ga . Seejärel genereeritakse Nf ühtlaselt jaotatud pseudojuhuslike arvude arv ci nii, et ∑iNfci on vahemikus [0, 1]. Järgmisena arvutatakse iga normaalrežiimi koordinaadi nihe R i , määrates harmoonilise potentsiaali, mis võrdub osakeste süsteemi c i skaleeritud keskmise energiaga mingil temperatuuril T. T. Nihke lahendamine annab, (1) Ri = ± 3ciNakbTKi, kus k b on Boltzmanni konstant. R i märk määratakse juhuslikult Bernoulli jaotusest, kus P = 0, 5, et tagada harmoonilise potentsiaali mõlemal küljel võrdne proovivõtt. Iga R i kasutatakse normaliseeritud normaalrežiimi koordinaatide skaalal qiR = Riqi. Järgmisena genereeritakse molekuli uus konformatsioon, nihutades struktuurilt optimeeritud koordinaadid Q R-ga , mis on kõigi qiR superpositsioon. Lõpuks arvutatakse ühepunktiline energia soovitud teooria tasemel, kasutades sisendina äsja nihutatud koordinaate.

Genereeritakse N andmepunkti (uued konformatsioonid), mis tähistavad potentsiaalse pinna akent. N arvutatakse S × K abil, kus S on empiiriliselt valitud väärtus (vt tabel 1), lähtudes igas molekulis olevate raskete aatomite arvust ja K on molekuli vabadusastmete arv. Konstruktsiooni koguenergiat, aatomisümbolid ja ristkoordinaadid salvestatakse vastavalt andmevormingu jaotises kirjeldatule.

Täissuuruses tabel

Andmekirjed

Andmekogum edastatakse HDF5-põhises failis Figshare'i andmehoidlas (andmete tsiteerimine 1: Figshare //doi.org/10.6084/m9.figshare.c.3846712). GitHubi hoidla, mis sisaldab README-faili koos tehnilise kasutamise üksikasjade ja andmekogule juurdepääsu näidetega, on saadaval veebis (//github.com/isayev/ANI1_dataset).

Failiformaat

Andmeid salvestatakse molekuli kohta, nagu on kirjeldatud joonisel 2. Iga X molekuli andmed salvestatakse python dict tüüpi, mis sisaldab kõiki konformeri andmeid. Joonisel 2 näidatud klahvid: koordinaadid, energiad ja liigid võimaldavad juurdepääsu näidatud tüüpi konteineritele, mis sisaldavad klahviga kirjeldatud andmeid. Liik on pütoonide loetelu stringidest, mis sisaldavad iga aatomi aatomisümbolit ja selle järjekord vastab õigesti koordinaatide nump massiivi mõõtmele 1. Kui HE lisada koordinaatide ja energiaklahvide lõppu, saadakse kõrge energiastruktuur, nagu on kirjeldatud tehnilise valideerimise jaotises.

Image

Sõnastikus talletatud konteinerite kirjeldus, mis tagastatakse HDF5 failivormingus salvestatud molekulide iteratsiooni kaudu. Nupp 'koordinaadid' annab juurdepääsu 3D-massiivile, mis sisaldab molekuli iga konformerteetiliselt koordinaatidena, klahv 'energiad' aga annab konformerite energiate 1D-massiivi. Iga 'koordinaatide' ja 'energia' massiivi esimene mõõde vastab õigele struktuurile. Liigiklahv sisaldab aatomite aatomisümbolit ja on tellitud vastama õiged aatomid massiivi teises mõõtmes, mille tagastab koordinaatide klahv. Teised tagastatud sõnastiku klahvid on vastavalt 'koordinaadidHE', 'energiadHE' ja 'naeratused' vastavalt kõrge energiaga koordinaatide, suure energiatarbega ja SMILES-stringi jaoks.

Täissuuruses pilt

Tehniline kinnitus

Kuna mittetasakaaluliste struktuuride genereerimiseks kasutatakse normaalrežiimi proovivõtteid, on andmekogumis kõrge energiaga konformereid. Need kõrge energiaga konformatsioonid tekivad siis, kui normaalsete režiimide harmooniline lähendamine ebaõnnestub potentsiaalsetes anharmoonilistes piirkondades ja on põhjustatud aatomi kokkupõrgetest või muudest väga ebasoodsatest molekulaarsetest konformatsioonidest. Joonisel 3b näidatud jaotus visualiseerib energiad andmekogumis, mis sisaldab 15 Ha energiaga struktuure. Sel põhjusel ei arvestatud ANI-1 potentsiaali treeningkomplekti energiatega, mis olid suuremad kui 275 kcal × mol- 1 ja mis olid madalamast energiamuundurist kõrgemad. See eemaldas 2 630 435 (10, 7% algsest koguarvust), saades 22 057 374 struktuuri. Biokeemilistes uuringutes ei arvestata piirkondi, kus on kõrge energiatarbimisega piirkonnad. Need andmed võivad siiski olla mõnel otstarbel kasulikud. Seetõttu hõlmame nii energia kui ka madala energiaga andmekogumeid, nagu on kirjeldatud andmete kirjelduse jaotises. Joonisel 3c on näidatud uute energiate jaotus, mis ei ole koguenergiast kunagi suuremad kui 0 Ha, millest on lahutatud aatomienergia panus koguenergiasse.

Image

a ) Kogu energia jaotus GDB-11 igas alakomplektis (04–08) normaalrežiimis proovide võtmise elektronide arvuga. Iga jaotuse skaala on võrdne pindalaga. b ) atomiseerimisenergiate jaotus täielikust andmekogumist sisestusega, mille pikk saba ulatub üle 12 Ha. c ) atomiseerimisenergiate jaotus pärast energiate kärpimist üle 275 kcal × mol −1 iga molekuli minimaalsest energiast.

Täissuuruses pilt

Konstruktsiooni optimeerimise etapis ei erista me optimeeritud struktuure, mis võivad potentsiaalse pinna sadulapunktis maanduda, ja neid, mis maanduvad mingite konstruktsioonimiinimumide juures. Arvestades konformatsiooniruumi proovivõtmise eesmärki, võib fakt, et mõned struktuurid võivad maanduda tasakaalutu geomeetria korral (sadulapunktid), aidata tegelikult nende andmete kasutamisel potentsiaalsete pindade jaoks, kuna see aitab katta konformatsiooniruumi piirkondi, mida tasakaal ei kata molekuli normaalrežiimi proovivõtt. Kui aga optimeerimine ei jõua liikumatusse punkti, nagu seda tegi 485 molekuli, siis neid struktuure treeningkomplekti ei lisatud, kuna nende konfiguratsiooni paikapidavust ei suudetud kohe kinnitada. Arvestades andmekogumis sisalduvate struktuuride suurt hulka, võib nende 485 molekulide mis tahes interaktsiooni leida mujalt andmekogumist.

Koguenergia genereerimisel kasutatakse sarnast protsessi, mille korral teavet ei lisata koondamata arvutuste jaoks. Teatud tugevalt piklike sidemete korral võib molekulaarse orbitaali optimeerimise protsess, konformatsiooni koguenergia saamiseks kasutatav iseseisev väljaprotseduur, läheneda lahendusele, kui kaks orbitaali on energias liiga lähedal. Sel põhjusel, kui struktuuri ühepunktiline energiaarvutus ei lähenenud, siis seda teavet andmekogumisse ei kaasata.

Mittetasakaaluliste andmete lisamise peamine mõte on võtta keemilise ruumi piirkonnad, mis oleksid hõredalt hõlmatud ainult tasakaalu käsitlevates andmekogumites. Joonis 3a pakub energiaproovide valideerimist, näidates kogu energiate jaotust GDB alamkomplekti 4 kuni 8 aatomiga molekuli iga molekuli elektronide koguarvuga jagatuna. Joonisel 3b, c on näidatud kogu energiate jaotus, millest on lahutatud kõigi üksikute aatomienergiate summa (tabel esitatud täiendava teabe tabelis 1) täis- ja “madala energia” (vähem kui 275 kcal × mol −1 minimaalsest energiast) andmekogumite korral vastavalt.

Tasakaalustamata proovivõtu täiendav valideerimine peab näitama, et andmekogum hõlmab suurt osa keemilistest vabadusastmetest konformatsiooniruumis. Joonis 4 sisaldab viit paneeli, mis tähistavad aatomikauguste jaotust saadud mittetasakaalulises andmekogumis (sinine joon), võrreldes sama molekuli ainult tasakaaluliste konformatsioonide (punane) andmekogumiga. Nagu oodatud, külastab tasakaalustamatuse konformatsioonide genereerimiseks kasutatav normaalrežiimi proovivõtumeetod konformatsiooniruumi piirkondi, mida ei hõlma ainult tasakaalu andmed. Sarnane graafik, lisateave. Joonis 1 näitab ülejäänud aatomipaaride vahekaugusi. Joonisel 5 on näidatud jaotus, mis hõlmab andmekogumite nurki ja kirjeldab sarnast lugu katvuse osas keha keha kolme interaktsiooni korral. Sinise tausta tiheduse graafik näitab, et ANI-1 andmekogum katab palju rohkem nurgaruumi kui tasakaalu andmekogumid (punane ja oranž). Ülejäänud proovitükid on toodud täiendava teabe joonistel 2–4.

Image

Aatomi vahemaade jaotus andmekogu alamhulgas, mis on konstrueeritud molekulidest, mis sisaldavad C, N ja O 4 kuni 8 rasket aatomit (GDB-04 kuni 08). Y-telg on 10-aluse logaritm vahemaad igas prügikasti, normaliseeritud kogu domeeni ulatuses, nii et kahte komplekti saaks võrrelda. X-telg tähistab näidatud tüüpi üksiksidet sisaldava väikseima võimaliku molekuli väikseima võimaliku molekuli aatomkaugust (r) jagatud üksiksideme tasakaalukaugusega ( r 0 ), arvutatuna –B97x tihedusega, mis funktsioneerib 6–31 g ( d) aluskomplekt. Punane histogramm näitab ainult tasakaalukaugusi sisaldava andmekogumi vahemaade täielikku jaotust. Sinine joon näitab meie mittetasakaalustatud andmekogumi jaotust, kusjuures vahemaad võetakse juhuslikult alamprooviks 1%. Nagu jooniselt nähtub, katab isegi 1% mittetasakaalulisest andmekogumist aatomi kauguse ruumi tohutuid alasid, kus tasakaalu andmete komplekti valimine ei õnnestu.

Täissuuruses pilt

Image

Joonisel on näidatud jaotuste jaotused, mis hõlmavad nurkade moodustamist andmekogumites, ja jutustab sarnase loo katvuse osas kehaehituslikus ruumis kolme keha interaktsiooni korral. Sinise tausta tiheduse graafik näitab, et ANI-1 andmekogum katab nurkade ruumi paremini kui tasakaalu andmekogumid (punane ja oranž). Nurgajaotuse ülejäänud arvnäitajad on lisatud lisateave.

Täissuuruses pilt

Kasutusjuhised

Tagamaks, et kõigil lugejatel oleks lihtne juurdepääs ANI-1 andmekogumile, oleme välja töötanud python-raamatukogu, mille andmete eraldamiseks on hõlpsasti kasutatav liides. Selle raamatukogu kasutamise näited on lisatud kausta lugejad.

Andmete tsitaadid

  1. 1

    Smith, JS, Isayev, O., ja Roitberg, AE Figshare //doi.org/10.6084/m9.figshare.c.3846712 (2017)

Täiendav teave

PDF-failid

  1. 1

    Täiendav teave