Az MI forradalma a genomikában: megérkezett az Evo 2 óriásmodell

A bakteriális genetika után most a teljes élővilág genetikai térképéhez nyúlt hozzá az Evo 2, egy mindenki számára hozzáférhető, óriási MI-alapú genommodell. Ezzel a fejlesztéssel az MI nemcsak a baktériumok, hanem az archeák és az eukarióta élőlények teljes genomját is képes elemezni. Továbbá az olyan, rendkívül komplex szerkezetű élőlények, mint az ember, genetikai térképe is értelmezhetőbbé válik, miközben számos olyan részlet válik felismerhetővé, amely az emberi kutatók számára eddig rejtve maradt.

Megtörhetetlen genetikai bonyolultság

Az eukarióta élőlények, így például az állatok és a növények, genetikai állománya legalább annyira összetett, mint maguk a sejtek. Örökítőanyaguk nem folyamatos: intronok szabdalják szét a hasznos régiókat, a szabályozó szekvenciák akár több százezer bázispáron keresztül is szétszóródhatnak. Ráadásul a DNS-állomány nagy része úgynevezett hulladék-DNS, amely a használhatatlan vagy inaktív gének és vírusmaradványok gyűjtőhelye. Emiatt a szakértők csak korlátozottan tudták azonosítani, hogy pontosan hol kezdődik és végződik egy gén, és hol lépnek működésbe a szabályozó fehérjék.

Az evolúciós összehasonlítás segít bizonyos régiók azonosításában, de az eltérések legalább ennyire izgalmasak. Mindezek dacára az ilyen bonyolult mintázatok elemzése emberi szemmel szinte lehetetlen; a mélytanuló MI-modellek éppen az ilyen rejtett összefüggések felismerésére születtek.

Monumentális adatbázis: a tréning alapjai

A rendszer alapját kétlépcsős tanítás adta. Az első szakaszban mintegy 8000 bázispár hosszúságú szekvenciákon tanult, hogy felismerje a legfontosabb genomjellemzőket. Ezután egymillió bázispár hosszúságú szekvenciákat kapott, hogy a nagy léptékű mintázatok is előtérbe kerüljenek. Az OpenGenome2 névre keresztelt adatbázis a baktériumok, archeák és eukarióták teljes örökítőanyaga mellett a baktériumokat fertőző vírusok szekvenciáit is tartalmazza, összesen 8,8 billió (azaz 8 800 000 000 000) bázispárt.

Két modellt készítettek: az egyik 7 milliárd paraméterrel, 2,4 billió bázispáron tanult, míg a teljes modell 40 milliárd paraméterrel és a teljes adathalmazzal készült el. Mivel sok vírus potenciális fenyegetést jelenthet, a kutatók nem engedélyezték az embert fertőző vírusok genomjának feldolgozását.

Kihívás: a hasznos örökség felismerése

Az MI-rendszerek a nagy adathalmaz érdekességét, relevanciáját az evolúció során megőrződött mintázatok alapján tanulják meg. Azok a szekvenciák, amelyek több élőlényben is visszatérnek, fontos biológiai jelentőséggel bírnak. Ezáltal az MI képes úgynevezett feladatnélküli (zero-shot) előrejelzésre is: anélkül, hogy konkrét feladatot vagy tanulmányt betáplálnánk, képes új és ismeretlen részleteket azonosítani. Ezzel elkerülhető az emberi torzítás és előítélet, és akár ismeretlen funkciójú génszakaszokat, szabályozó elemeket is azonosíthat.

Az Evo 2 szabadon hozzáférhető: paraméterei, forráskódja, tréningadatbázisa és következtető algoritmusai is szabadon letölthetők.

Bepillantás a genom titkaiba

A kutatók azt is megmutatták, hogy a modell hogyan lát bele a genom szerkezetébe. Egy kiegészítő neurális hálózat segítségével sikerült feltérképezni, hogy az Evo 2 pontosan felismeri a fehérjekódoló régiókat, ezek határait, az intronokat és azokat a szerkezeteket, amelyek például a fehérjék térbeli alakját befolyásolják (alfa-hélixek, béta-lemezek). Még a genetikai szintű parazitaként működő mobilis genetikai elemek azonosítása is sikerült.

Valódi alkalmazások: mutációk, betegségek, annotáció

Az Evo 2-t különféle mutációkkal tesztelték: amikor egyetlen bázispáron változtattak, a modell pontosan érzékelte, hogy hol keletkezhet problémás eltérés – például a transzkripció vagy a transzláció kezdőpontjain. Az is kiderült, hogy a legsúlyosabb mutációkat – például amelyek megszakítják a fehérjeszintézst – pontosan besorolja. Nemcsak a géneket, hanem a kizárólag RNS által végzett funkciókat is felismeri, különösen, ha ezek sérülnek.

Külön figyelemre méltó, hogy az eukarióta genomok értelmezése mellett a bakteriális és archeális genomokat is zökkenőmentesen feldolgozza, automatikusan felismeri, hogy melyik élőlényhez tartozik a vizsgált szekvencia, és ahhoz igazítja az értelmezést is. Az olyan változékony elemeket, mint az intronok kivágását jelző helyek, az Evo 2 jobban azonosítja, mint sok feladatspecifikus szoftver, különösen a BRCA2 gén mutációinak értékelésében emelkedik ki.

Mi jöhet még?

Az Evo első generációja már meglepte a kutatókat, amikor képes volt új, eddig ismeretlen, funkcionális fehérjéket generálni baktériumokból vett géndarabkák alapján. Most azonban egyelőre nem ismert, hogy ugyanez megtörténhet-e komplexebb szervezetek génjeivel. A rendszer képes volt új szabályozó DNS-szakaszokat tervezni két sejttípus számára, ám ezek közül csak kevés bizonyult igazán hatásosnak.

A következő lépés annak feltérképezése lesz, hogy az Evo 2 modellezése milyen új gén- vagy fehérjetervezési problémákban állhat helyt, főleg daganatos vagy más betegségekkel kapcsolatos alkalmazásokban. Kérdés, hogy további tréningekkel létrehozhatók-e olyan specializált változatok, amelyek bizonyos problémákra, például rákos sejtek genomjára, különösen alkalmasak.

Végső soron az is előfordulhat, hogy az Evo 2 olyan genomjellemzőket is felismer, amelyek létezéséről a kutatók egyelőre semmit sem tudnak. Tekintettel arra, hogy az emberi genomot évtizedek óta kutatják, meglepő lenne, ha még mindig számos rejtély lappangana benne – de az MI most új korszakot nyithat ezen a téren is.

A világ életének genetikai kódját feltáró eszköz most mindenki számára elérhető. Hamarosan kiderül, mennyi titkot fejt még meg az Evo 2.

2025, adminboss, arstechnica.com alapján

Share on Social Media