Catedra.ai’s Bloc

Principals consideracions a l’hora d’escollir un model massiu de llenguatge

Els models massius de llenguatge (MML) són al capdavant del desenvolupament més recent en intel·ligència artificial (IA). Entrenats amb desenes, fins i tot centenars, de milers de milions de paràmetres, la seva escala formidable els dota d’una gran capacitat per a tasques complexes de comprensió del llenguatge natural. Models versàtils com ChatGPT o Claude excel·leixen en un ampli ventall de funcions, com per exemple el resum de text, la traducció, la resposta a preguntes o fins i tot tasques senzilles de programació.


Què defineix un model massiu de llenguatge?

El que fa tan aptes i capaços aquests MMLs és una mica un misteri encara, però s’assumeix que és precisament la seva dimensió el que els dóna la capacitat de resoldre tasques en les quals models més petits s’estavellen. Per tant, el nombre de paràmetres d’un MML, que representa la quantitat de pesos apresos durant el seu entrenament, es pren com un índex significatiu del model, atès que aquesta mida influeix directament en la seva complexitat i capacitat d’aprenentatge. Investigadors de Google Research han demostrat que quan la mida del model augmenta, el seu rendiment no només millora en tasques ja conegudes sinó que també manifesta noves competències, tal i com s’il·lustra en la següent figura:

Fig.1: Pathways Language Model (PaLM): escala a 540 mil milions de paràmetres per a un rendiment innovador. Narang i Chowdhery. Google Research. 4 d’abril de 2022.

Una altra manera d’analitzar els MMLs és examinant la seva complexitat computacional mitjançant la mètrica coneguda com a operacions de coma flotant (en anglès, floating-point operations, FLOP), que ens informa sobre la potència de computació que necessiten i el seu consum potencial d’energia. Podeu veure-ho en aquest gràfic interactiu, mostrat també a continuació. Il·lustra la increïble i ràpida evolució dels últims anys, però també l’impacte creixent en termes de petjada de carboni que tenen els models durant la fase d’entrenament.

Fig.2: Costos de computació per a l’entrenament de models al llarg del temps – Font: Epoch (2024) – With minor processing, Our World in Data. 4 de març de 2024.

El creixement dels MMLs és molt ràpid i comporta reptes pel que fa a la quantitat de memòria i potència de computació. Això és un desafiament important tant per a la investigació acadèmica com per a l’ús pràctic d’aquests recursos, i posa per tant l’accent en la necessitat d’innovació i optimització contínua per tal de poder posar a disposició de tothom el potencial i les capacitats dels MMLs.

Classificació dels MMLs

En l’àmbit del processament del llenguatge natural (PLN), es fan servir taules de classificació (conegudes en anglès com a leaderboards) per avaluar i comparar el rendiment dels diferents MMLs en base a marcadors específics. Proporcionen una mesura quantitativa del rendiment dels models en tasques determinades, com ara la comprensió textual, la generació de text o la traducció, entre d’altres. Aquestes taules ofereixen doncs punts de referència consensuats que s’assumeixen com a estàndards, i tenen un valor immens perquè ajuden a comprendre la capacitat dels diferents models.

El rendiment dels MMLs en tasques diverses de PLN es compara normalment amb el rendiment humà, que es pren com l’estàndard d’or. Tal i com s’indica a la taula de classificació dels MMLs d’accés obert del Hugging Face, en els últims mesos les puntuacions màximes de rendiment dels MMLs s’han anat acostat progressivament al nivell de rendiment humà (marcat amb punts a la figura següent):

Fig. 3: Taula de classificació de MMLs d’accés obert de Hugging Face. Beeching et al. (2023).

Més dades: HELM (sigles en anglès del marc d’avaluació holística de models de llenguatge, desenvolupat pel Center for Research on Foundation Models de la Universitat de Stanford), avalua els MMLs en base a una gran varietat de conjunts de dades i mètriques. Malgrat que la versió Lite de HELM sembla suggerir que quant més gros és el model (en termes de quantitat de paràmetres) millor, models de mida “més petita”, com ara Mistral v0.1 (7B), han demostrat un rendiment sorprenent en diverses tasques de caràcter genèric, en comparació amb models que són deu vegades més grossos.

I més encara: a diferència de la majoria de taules de classificació, que se centren únicament en la mètrica de precisió, la taula HELM classic ofereix una avaluació completa, aportant també informació sobre la fiabilitat dels models amb mètriques com el biaix, l’eficiència, l’equitat, la robustesa i la toxicitat per a gairebé totes les tasques contemplades a l’anàlisi (des del novembre de 2022). La meitat dels models en aquesta classificació són de codi obert. I és que el 2023 va ser l’any que el potencial dels MMLs de codi obert va fer finalment eclosió.

També hi ha investigacions recents que han avaluat diferents MMLs en base a com de bé segueixen instruccions i són capaços de respondre a preguntes obertes (p. ex., Em pots ajudar a escriure un correu electrònic formal a un possible soci comercial per proposar-li una empresa conjunta?), generant doncs noves maneres d’entendre i mesurar les seves capacitats. Totes aquestes formes d’avaluació són bàsiques per assegurar que a mesura que els MMLs es desenvolupen i s’utilitzen, milloren de manera significativa i fiable. Fes un cop d’ull a HELM Instruct, un marc d’avaluació multidimensional, i als resultats de rendiment que mostra per a 4 models pel que fa al seguiment d’instruccions (GPT-3.5 turbo 0613, GPT-4 0314, Anthropic Claude v1.3 i Cohere Command xlarge beta). Aquest marc presenta un enfoc estandarditzat i objectiu per avaluar el rendiment dels MMLs i per tant representa un pas important per entendre’n les seves capacitats.

Finalment, avaluar els MMLs és crucial a l’hora d’adaptar-los a tasques més específiques; el que tècnicament es coneix com “fer aterrar el model” (de l’anglès grounding). Cal fer aterrar un MML quan es vol fer servir per afegir una nova funcionalitat a un producte o aplicació determinada, com per exemple una interfície que permeti a l’usuari d’interaccionar-hi simplement parlant. No només és important de capacitar (o fer l’aterratge) del model per a la nova tasca, sinó que també cal assegurar que això millora el producte en general i no causa cap efecte secundari no desitjat. Aquesta avaluació es pot dur a terme manualment o bé de manera automàtica. Tot i que és un repte a causa de l’ampli ventall de tasques i estàndards, és un pas essencial per a la millora contínua del projecte.

Dicotomia en el desplegament de MMLs: models comercials o d’accés obert?

Quan integreu un MML al vostre projecte, l’elecció entre opcions d’accés obert o comercials és crítica. Aquesta decisió influirà no només en les capacitats tècniques del vostre producte, sinó també en la seva dinàmica operativa i el seu potencial estratègic. Aquí teniu una anàlisi exhaustiva de les consideracions clau per guiar-vos en la presa de decisió.


Facilitat de desplegament i escalabilitat


Els MMLs comercials destaquen perquè permeten un desplegament fàcil i fluid dins de qualsevol projecte. Són accessibles mitjançant trucades senzilles a través d’interfícies de programació d’aplicacions (o APIs, en anglès), i per tant simplifiquen considerablement el procés de desenvolupament. A més, aquests models inclouen infraestructures escalables, la qual cosa els fa ideals per a projectes que necessiten allotjament múltiple (o multi-host), com ara les plataformes Software as a Service (SaaS). Aquesta escalabilitat garanteix que la infraestructura del vostre projecte pugui créixer en paral·lel a l’increment de la vostra base d’usuaris, sense necessitat d’inversions addicionals importants al component del backend.


Qualitat, disponibilitat i control


Els MMLs comercials solen ser de major qualitat i oferir unes capacitats més altes, ja que reben el suport d’inversió contínua en recerca i desenvolupament. Tanmateix, la seva disponibilitat i capacitat de resposta pot quedar ressentida durant les hores punta d’ús, fet que pot degradar-ne la qualitat del servei. A més, hi ha el risc que els models quedin obsolets o es retirin del mercat per part de l’empresa que els comercialitza, i això no només treu capacitat de control sobre aquests models als projectes que els fan servir, sinó que els pot fins i tot deixar a l’estacada.


Fine-tuning i seguretat


Fine-tuning is notably easier with commercial LLMs, which may offer dedicated support and resources for customization. However, this comes with potential privacy and security concerns regarding data shared with third-party providers. In contrast, open-access LLMs allow for local hosting, which can significantly enhance data security as it allows you to keep sensitive information within your controlled environment.


Rendiment i costos


Els MMLs d’accés obert constitueixen una alternativa econòmicament viable, especialment per a projectes on el cost de l’allotjament local compensa les despeses recurrents associades a l’ús de l’API d’un model comercial. Val la pena assenyalar que de fet, per a determinades tasques, els models d’accés obert que hi ha disponibles a través de plataformes com Hugging Face poden superar en rendiment els seus homòlegs comercials, oferint per tant solucions superiors sense els costos associats.


Reptes de desplegament i rendiment específic


El desplegament de MMLs d’accés obert, especialment en escenaris d’alta demanda, exigeix recursos d’enginyeria substancials. Això inclou no només la configuració inicial, sinó també un manteniment continu que garanteixi un rendiment i fiabilitat òptims. A més, instruir els MMLs d’accés obert perquè arribin a nivells de rendiment comparables als dels models comercials pot ser un repte per a certes tasques, de manera que cal una inversió addicional per fer aterrar el model, per exemple amb fine-tuning.
Per tant, l’elecció entre models d’accés obert o comercials ha de fer-se considerant atentament les especificitats de cada projecte, incloent aspectes com els requisits de rendiment, les limitacions pressupostàries i els problemes potencials de seguretat. Tot i que els models comercials ofereixen una major facilitat d’ús, capacitat d’escalabilitat i resultats d’alta qualitat, presenten tanmateix riscos relacionats amb la disponibilitat, l’’autonomia i capacitat de control, i la privadesa de les dades. Per contra, els models d’accés obert proporcionen un major control i seguretat a costa d’una inversió addicional en recursos. És sospesant tots aquests factors que podreu prendre una decisió informada que s’alineï amb els objectius estratègics i les capacitats operatives del vostre projecte.

No esteu sols


Navegar pel complex paisatge dels MMLs pot semblar aclaparador per a qui no estigui íntimament familiaritzat amb el camp, atesa les capacitats tan diverses dels models disponibles, la seva varietat de dimensions, les diferències de rendiment i la sèrie d’avantatges i inconvenients que presenten els models d’accés obert i els comercials. Molt segurament considereu que integrar aquesta tecnologia al vostre projecte pot beneficiar-lo significativament, però desplegar aquests recursos pel vostre compte de manera òptima pot comportar una quantitat considerable de temps i recursos. Una solució convenient a aquesta situació és doncs recórrer a un equip dedicat de professionals amb l’experiència necessària per gestionar amb habilitat tots els aspectes del procés.
A Catedra.ai tenim l’equip que et pot ajudar en aquest esforç. Contacta amb nosaltres i t’acompanyarem en el viatge pel nou regne dels MMLs.

El propòsit de la IA: Fem-la enganxosa

De construir piràmides a gestionar icebergs: La revolució dels models massius de llenguatge a la ciència de dades

Optimització del fine-tuning en models massius de llenguatge d’accés obert amb Hugging Face

Com adaptar models massius de llenguatge a les teves necessitats específiques