Villámgyors képalkotás fénysebességgel, új korszak az optikai mesterséges intelligenciában

A Los Angeles-i Kaliforniai Egyetem kutatói forradalmi áttörést értek el: optikai generatív modelleket fejlesztettek ki, amelyek teljesen új képeket képesek létrehozni a fény fizikai tulajdonságainak felhasználásával, a hagyományos digitális számítások helyett. Ez a megközelítés nemcsak felgyorsítja a mesterséges intelligencia tartalomgenerálását, hanem jelentősen csökkenti az energiafogyasztást is. Lényeges, hogy a jelenlegi generatív MI-modelleket óriási adathalmazok, jelentős hardverigény és ezzel együtt növekvő szénlábnyom jellemzi, így hosszú távon csak a fenntarthatóbb megoldások kínálhatnak kiutat.

Újragondolt képalkotás: amikor a fény teremti a képet

A kutatók egy sekély digitális kódolón és egy szabad térben működő, fény-diffrakción alapuló optikai dekóderen alapuló rendszert alkottak meg, ahol a generatív folyamat nagy részét maga a fény végzi. A véletlen zajból létrehozott optikai generatív magokat lézerfénnyel világítják meg a dekóderen, amely előre optimalizált, statikus kialakításának köszönhetően gyakorlatilag azonnal előállítja a kívánt képet. Érdemes megjegyezni, hogy a digitális modellekkel ellentétben, amelyek akár több ezer iterációval dolgoznak, itt egyetlen fényáteresztés is elegendő.

Kreativitás, gyorsaság, sokoldalúság

A kutatás eredményei szerint az optikai rendszerrel előállított képek – beleértve kézzel írt számjegyeket, ruhadarabokat, lepkéket, emberi arcokat vagy éppen Van Gogh stílusú festményeket – minőségben vetekednek a legfejlettebb digitális diffúziós modellekével. Kiemelendők a többszínű, nagy felbontású, művészi alkotások, amelyek jól mutatják, milyen széles körben alkalmazható az optikai MI. A kutatók kétféle keretrendszert fejlesztettek ki: a snapshot optikai generatív modellek egyetlen fényáteresztéssel hoznak létre friss képeket, míg az iteratív változatok a digitális diffúziót utánozva többlépcsős finomítást tesznek lehetővé – mindezt ugyanazon a hardveren, csupán a bemenet és a dekóder módosításával.

Biztonság, titkosítás, egyéni tartalom

Fontos szempont, hogy az optikai generatív modellek természetüknél fogva beépített adatvédelmet kínálnak. Egyetlen kódolt fázisminta különböző hullámhosszúságú fényekkel is megvilágítható, visszafejteni azonban csak az adott dekóderrel lehetséges – ez a védelem digitális eszközökkel nem érhető el. Így zárt, személyre szabott és biztonságos tartalomszolgáltatás vagy titkos kommunikáció is megvalósítható.

Jövő a zsebben – hordozható optikai MI-megoldások

A kutatók az optikai rendszerek miniatürizálását is célul tűzték ki: nanogyártással, passzív felületek vagy integrált fényelektronika alkalmazásával a technológia beépíthető lenne például okosszemüvegekbe, AR/VR headsetekbe vagy mobil eszközökbe. Ez arra utal, hogy a jövőben az MI valós időben, hordozható módon, azonnal képes lehet kreatív tartalmak előállítására, miközben minimalizálja az energiaigényt.

Ugyanakkor a fejlesztés távlatos jelentősége túlmutat a mindennapi technológiákon: a megoldás áttörést hozhat a biztonságos kommunikáció, az orvosi képalkotás vagy akár az elosztott MI területén is, lehetővé téve a fenntartható, villámgyors, személyre szabott tartalomgyártást.

2025, adminboss, phys.org alapján