Átalakított tört, buzzword csomagolásban
Néhány éve jelent meg a CoFrNets: Interpretable Neural Architecture Inspired by Continued Fractions (CoFrNets: Értelmezhető neurális architektúra lánctörtek alapján) című tanulmány, amelynek szerzői azt vizsgálták, hogyan lehet a lánctörteket mesterségesintelligencia-hálózatok tervezésében alkalmazni. Tizenhárom oldalon keresztül fejtik ki: a lánctörtek éppúgy, mint a hagyományos MLP-k, univerzális közelítőként működhetnek a gépi tanulásban.
A szerzők azonban mintha mindent újrafogalmaznának, amire valaha nevet adtak a matematikusok. A lánctörteket új néven „létráknak” hívják, az osztást „1/z nemlinearitásnak” keresztelik át, végül pedig generalizált lánctört helyett CoFrNets néven szerepeltetik az egyszerű ötletet. Vagyis a jó öreg lánctörtet belerakták egy MI-modellbe, gépi tanulásbarát csomagolásban, miközben a koncepció évszázadok óta ismert.
Lánctörtek: az univerzális matematikai svájci bicska
A lánctörtek a matematika legősibb eszközei közé tartoznak, alkalmasak például a π közelítésére vagy fogaskerekek fogszámának precíz meghatározására is. Ilyen eset például, amikor egy 19. századi órásmester, Achille Brocot lánctörteket használt, hogy optimális áttételeket készítsen karóráihoz. Ramanujan trükkjei szintén ezen alapultak, ahogy az analízis, számelmélet és algoritmuselmélet kiemelkedő eredményei is.
A klasszikus formában a pn/qn n-edik lánctört konvergensét használják, és létezik általánosított (azaz bármilyen egész, polinom vagy akár adathalmaz is lehet a bemenet) lánctörtábrázolás is.
Hogyan lesz ebből neurális hálózat?
A CoFrNetek annyit csinálnak, hogy fogtak egy PyTorch-alapú lánctört-könyvtárat, majd a hagyományos lineáris rétegeket egymásba ágyazva nem ReLU-t, hanem reciprok nemlinearitást (vagyis 1/z) alkalmaznak. A torzítási (bias) tagot szintén egy újabb lineáris réteggel helyettesítik – így reprodukálva egy általánosított lánctört szerkezetét.
Az egész architektúra csupán linearitások, egymásba ágyazások és reciprokok sorozata. PyTorch-ban mindezt egy könnyen átlátható számítási gráffal oldják meg, ahol a visszaterjesztés (backward()) már automatikusan működik.
Miért nem hozott forradalmat?
A Waveform nevű, nemlineáris adatkészleten a modell 61%-os pontosságot ért el, ami jelentősen elmarad a modern MI-csúcsteljesítménytől. Ebből arra lehet következtetni, hogy bár a lánctörtek érdekes tulajdonságai elméletben jól alkalmazhatók lehetnek, a deriváltak gyorsan elhalnak – vagyis az optimalizálás differenciáláson keresztül hamar eléri a korlátait. Ez már Euler korabeli munkáiban is felmerült: végtelen sorozatok esetén a differenciálás önmagában kevés.
A modern autodiff-keretrendszerek, például a PyTorch, ugyan folytonos számítási gráffá alakítják a problémát, de a matematikai háttere és korlátai megmaradnak.
Mire szól a szabadalom, és mit kifogásol benne az MI-közösség?
Az IBM szabadalma nem kevesebbet állít, mint hogy a lánctörtekből származó szerkezet deriváltalapú optimalizációja egyedi innováció lenne az MI-modellezésben. Vagyis: bármilyen neurális hálózat, ahol lineáris rétegek helyett lánctörteket alkalmaznak, és ahol ezt visszaterjesztéssel tanítják, immár az IBM védelme alatt áll. Ez azt is jelenti, hogy akár egy több évszázados matematikai eljárás PyTorch-ba vagy bármely más MI-eszközbe való átültetéséért mostantól licencdíjat követelhetnek.
A szabadalom különlegessége, hogy elvileg bármire vonatkozhat, amiben deriválható lánctörtek és MI egy helyre kerülnek – legyen az a Sage, a Maple, a Wolfram vagy bármilyen kutatói implementáció.
Kik érintettek?
A szabadalom hatása messzire nyúl, hiszen lánctörteket régóta használnak:
– Gépmérnökök és robotikusok: Optimális fogaskerekek és áttételek tervezése során, főleg ha deriváltalapú optimalizáció is történik.
– Matematikatanárok és elméleti kutatók: Már az elliptikus görbék és lánctörtek kapcsolatának tanulmányozása során is szembe találhatják magukat a szabadalommal, ha például Pythonban vagy PyTorch-ban próbálnak modellezni.
– Numerikus analitikusok, algoritmikus kutatók: Lánctörteket gyakran használnak integrálok, hibaszámítások vagy akár egész könyvtárakban szereplő algoritmusok alapjaként.
Vagyis, ha bármikor szükséged van egy klasszikus lánctört-matekra egy neurális hálóban, jobb, ha tudod: az IBM már ott is van.
