În lumea inteligenței artificiale și a procesării limbajului, dezvoltarea modelelor lingvistice de mari dimensiuni (LLM-uri) a deschis posibilități fascinante pentru cercetare și aplicații inovatoare. Cu toate acestea, construirea și antrenarea acestor modele necesită o putere de calcul uriașă, punând în fața cercetătorilor provocări semnificative.

Supercomputerul LUMI din Finlanda.
În plus, deoarece LLM-urile, cum ar fi versiunea utilizată pentru ChatGPT, sunt de obicei atât brevetate, cât și bazate pe limba engleză, acestea sunt subutilizate în ceea ce privește cercetarea academică, iar lipsa diversității lingvistice reprezintă o barieră pentru acces.
Universitatea din Turku, cu sediul în Finlanda, a dorit să schimbe această situație și a colaborat acum cu 10 laboratoare de cercetare universitară din Europa, utilizând supercomputerul LUMI pentru a construi noi modele lingvistice de mari dimensiuni într-o varietate de limbi europene. În viitor, ei speră să creeze modele de bază pentru toate limbile oficiale ale UE, dar și pentru alte câteva limbi, în scopuri de cercetare academică și de formare.
Echipat cu GPU AMD Instinct și procesoare EPYC, supercomputerul LUMI – clasificat recent ca fiind cel mai rapid supercomputer din Europa, precum și unul dintre cele mai eficiente din punct de vedere energetic – permite grupului TurkuNLP să creeze noi modele într-un interval de timp rezonabil.
Pentru a pune acest lucru în context, LUMI este cu două ordine de mărime mai mare decât mașinile de generație anterioară disponibile în Finlanda. Anterior, echipa avea nevoie de o jumătate de an pentru a pre-antrena un model lingvistic de 1 miliard de parametri pe un computer, dar acum, doar două săptămâni pentru ca LUMI să proceseze aproximativ 40 de miliarde de token-uri, constituind caractere, silabe sau cuvinte.
Dr. Sampo Pyysalo, unul dintre cei mai importanți experți în domeniu, recunoaște rolul crucial al resurselor computaționale abundente în crearea modelelor LLM. „Avem nevoie de o cantitate mare de putere de calcul pentru a crea un model într-un interval de timp rezonabil”, spune Pyysalo. „Marea provocare la această scară este de a face ca totul să ruleze eficient, dar și de a menține un flux continuu.
Trebuie să putem accesa datele din stocare eficient, să rulăm kernel-uri eficient și să transferăm datele între GPU-uri și memoria principală. O altă provocare majoră legată de scalare este comunicarea. După ce fiecare GPU calculează părțile sale din model, totul trebuie integrat. Avem nevoie de un flux de lucru global rezonabil, distribuind în același timp calculul pe sute sau mii de dispozitive.”Cu o dimensiune a modelului de 176 de miliarde de parametri – de peste o mie de ori mai mare decât proiectul lor pilot anterior – cercetătorii se bucură acum de o scalabilitate fără precedent cu LUMI. Acest supercomputer, care depășește cu două ordine de mărime puterea predecesoarelor sale din Finlanda, a deschis noi orizonturi pentru cercetare.