
Megtörhetetlen genetikai bonyolultság
Az eukarióta élőlények, így például az állatok és a növények, genetikai állománya legalább annyira összetett, mint maguk a sejtek. Örökítőanyaguk nem folyamatos: intronok szabdalják szét a hasznos régiókat, a szabályozó szekvenciák akár több százezer bázispáron keresztül is szétszóródhatnak. Ráadásul a DNS-állomány nagy része úgynevezett hulladék-DNS, amely a használhatatlan vagy inaktív gének és vírusmaradványok gyűjtőhelye. Emiatt a szakértők csak korlátozottan tudták azonosítani, hogy pontosan hol kezdődik és végződik egy gén, és hol lépnek működésbe a szabályozó fehérjék.
Az evolúciós összehasonlítás segít bizonyos régiók azonosításában, de az eltérések legalább ennyire izgalmasak. Mindezek dacára az ilyen bonyolult mintázatok elemzése emberi szemmel szinte lehetetlen; a mélytanuló MI-modellek éppen az ilyen rejtett összefüggések felismerésére születtek.
Monumentális adatbázis: a tréning alapjai
A rendszer alapját kétlépcsős tanítás adta. Az első szakaszban mintegy 8000 bázispár hosszúságú szekvenciákon tanult, hogy felismerje a legfontosabb genomjellemzőket. Ezután egymillió bázispár hosszúságú szekvenciákat kapott, hogy a nagy léptékű mintázatok is előtérbe kerüljenek. Az OpenGenome2 névre keresztelt adatbázis a baktériumok, archeák és eukarióták teljes örökítőanyaga mellett a baktériumokat fertőző vírusok szekvenciáit is tartalmazza, összesen 8,8 billió (azaz 8 800 000 000 000) bázispárt.
Két modellt készítettek: az egyik 7 milliárd paraméterrel, 2,4 billió bázispáron tanult, míg a teljes modell 40 milliárd paraméterrel és a teljes adathalmazzal készült el. Mivel sok vírus potenciális fenyegetést jelenthet, a kutatók nem engedélyezték az embert fertőző vírusok genomjának feldolgozását.
Kihívás: a hasznos örökség felismerése
Az MI-rendszerek a nagy adathalmaz érdekességét, relevanciáját az evolúció során megőrződött mintázatok alapján tanulják meg. Azok a szekvenciák, amelyek több élőlényben is visszatérnek, fontos biológiai jelentőséggel bírnak. Ezáltal az MI képes úgynevezett feladatnélküli (zero-shot) előrejelzésre is: anélkül, hogy konkrét feladatot vagy tanulmányt betáplálnánk, képes új és ismeretlen részleteket azonosítani. Ezzel elkerülhető az emberi torzítás és előítélet, és akár ismeretlen funkciójú génszakaszokat, szabályozó elemeket is azonosíthat.
Az Evo 2 szabadon hozzáférhető: paraméterei, forráskódja, tréningadatbázisa és következtető algoritmusai is szabadon letölthetők.
Bepillantás a genom titkaiba
A kutatók azt is megmutatták, hogy a modell hogyan lát bele a genom szerkezetébe. Egy kiegészítő neurális hálózat segítségével sikerült feltérképezni, hogy az Evo 2 pontosan felismeri a fehérjekódoló régiókat, ezek határait, az intronokat és azokat a szerkezeteket, amelyek például a fehérjék térbeli alakját befolyásolják (alfa-hélixek, béta-lemezek). Még a genetikai szintű parazitaként működő mobilis genetikai elemek azonosítása is sikerült.
Valódi alkalmazások: mutációk, betegségek, annotáció
Az Evo 2-t különféle mutációkkal tesztelték: amikor egyetlen bázispáron változtattak, a modell pontosan érzékelte, hogy hol keletkezhet problémás eltérés – például a transzkripció vagy a transzláció kezdőpontjain. Az is kiderült, hogy a legsúlyosabb mutációkat – például amelyek megszakítják a fehérjeszintézst – pontosan besorolja. Nemcsak a géneket, hanem a kizárólag RNS által végzett funkciókat is felismeri, különösen, ha ezek sérülnek.
Külön figyelemre méltó, hogy az eukarióta genomok értelmezése mellett a bakteriális és archeális genomokat is zökkenőmentesen feldolgozza, automatikusan felismeri, hogy melyik élőlényhez tartozik a vizsgált szekvencia, és ahhoz igazítja az értelmezést is. Az olyan változékony elemeket, mint az intronok kivágását jelző helyek, az Evo 2 jobban azonosítja, mint sok feladatspecifikus szoftver, különösen a BRCA2 gén mutációinak értékelésében emelkedik ki.
Mi jöhet még?
Az Evo első generációja már meglepte a kutatókat, amikor képes volt új, eddig ismeretlen, funkcionális fehérjéket generálni baktériumokból vett géndarabkák alapján. Most azonban egyelőre nem ismert, hogy ugyanez megtörténhet-e komplexebb szervezetek génjeivel. A rendszer képes volt új szabályozó DNS-szakaszokat tervezni két sejttípus számára, ám ezek közül csak kevés bizonyult igazán hatásosnak.
A következő lépés annak feltérképezése lesz, hogy az Evo 2 modellezése milyen új gén- vagy fehérjetervezési problémákban állhat helyt, főleg daganatos vagy más betegségekkel kapcsolatos alkalmazásokban. Kérdés, hogy további tréningekkel létrehozhatók-e olyan specializált változatok, amelyek bizonyos problémákra, például rákos sejtek genomjára, különösen alkalmasak.
Végső soron az is előfordulhat, hogy az Evo 2 olyan genomjellemzőket is felismer, amelyek létezéséről a kutatók egyelőre semmit sem tudnak. Tekintettel arra, hogy az emberi genomot évtizedek óta kutatják, meglepő lenne, ha még mindig számos rejtély lappangana benne – de az MI most új korszakot nyithat ezen a téren is.
A világ életének genetikai kódját feltáró eszköz most mindenki számára elérhető. Hamarosan kiderül, mennyi titkot fejt még meg az Evo 2.
