Intro

Voiam să scriu articolul ăsta de ceva vreme, legat de modele LLM mai mici și specializate, dar am tot amânat. Însă între timp s-au petrecut două lucruri care cumva se leagă de ce voiam să zic.

  1. Articolul acesta despre Mistral și cum au reușit să creeze un mic imperiu AI fără să aibă cele mai puternice modele. How France’s Mistral Built a 14 billion AI empire by not being american

  2. GitHub Copilot trece la modelul de taxare pe token și nu pe request cum era până acum. GitHub Copilot is moving to usage-based billing

Preț real

Cred că am avut parte de o perioadă de testare care începe să se încheie. Perioadă în care era incredibil de ieftin să folosești modele AI de top și să produci orice fel de slop voiai.

Eu de exemplu folosesc GitHub Copilot Pro care încă funcționează pe baza de request-uri. E 10 USD, îi mai dau limită să se ducă 20 peste dacă e nevoie și aia e. Dacă ai un prompt bun cu fișiere ușor de parcurs pentru LLM, reușești destul de ușor să “abuzezi” de planul Pro și să scoți mai mult din el pentru că nu este calculat la token-uri folosite.

Cum nu fac totul doar cu LLM, e mai mult decât de ajuns. Și nici nu am avut nevoie de Opus (care e 3x în costuri). Incredibil de rar am ajuns să folosesc Opus, Sonnet 4.5/4.6 e mai mult decât ok în majoritatea cazurilor.

Am tot văzut discuții legate de cât din puterea de calcul și prețul modelelor este subvenționat, probabil între 90%-100%. Mai mult spre 100% aș tinde să cred, pentru că Copilot Pro de exemplu e ridicol de ieftin.

Nu mai vorbesc de DeepSeek care e cea mai ieftină opțiune disponibilă acum. Pui 10 USD și uiți că ai plătit. Deși API-ul e foarte slow în unele situații, nu cred că poți să ceri prea mult la prețul ăla.

OpenAI, Antrhopic, trebuie să facă bani și începe partea de enshitification: prețurile pentru token cresc și de 9x în cazul modelelor de top (Opus) și tot nu cred că sunt aproape de realitate. E doar un mod în care vor încerca să se axeze pe enterprise și apoi să le țină blocate.

Costul e și mai mare. You’re about to feel the AI money squeeze

Și asta e doar când aducem în discuție modelele direct, fără alte wrappere în jurul lor. Lovable sau Figma Make sunt inutilizabile acum în modul trial, iar prima variantă plătită nu te ajută prea mult pentru că se termină creditele foarte repede.

Viitor

Am senzația că LLM-urile locale vor fi tot mai populare pe măsură ce prețurile o să crească pentru modelele closed spre la valorea lor reală.

Cei care nu o să fie blocați în a folosi unul din ecosistemele de cloud AI, cred că vor migra ușor, ușor la modele locale specializate. Și aici nu mă refer doar la utilizatori individuali sau power users care au nevoie constant de LLM pentru munca lor, dar și la companii de dimensiuni medii care sunt atente la cheltuieli pe termen lung.

Asta dacă nu avem vreo dezvoltare majoră în modul de operare al LLM-urilor pe aceleași tipuri de hardware, o îmbunătățire substanțială pe partea de software, care să le facă mult mai eficiente și costurile să scadă atât de mult încât nimeni nu ar avea un motiv să nu le folosească.

Iar unele din tool-urile care vor fi folosite vor fi folosite de specialiști în domeniu. Dacă ești designer cu siguranță o să coste compania mai puțin ca tu să utilizezi tool-urile de AI pe parte de design pentru că ai experiență, știi ce vrei să faci și cum să ajungi la rezultat prin prompturi bune. Totodată e mult mai probabil ca ce o să faci tu să fie mai bun decât chestia generică pe care aș face-o eu dacă aș avea acces la același tool.

Sună bine ideea aia cu “democratizarea” diverselor domenii (programare, design), și toată lumea poate face orice cu AI, dar sunt șanse mari să fie rezultate mediocre.

Doar ca mențiune, la un proiect pe care îl am s-a cam renunțat la Lovable și Figma Make pentru oamenii care nu au treabă cu domeniul și deodată avem la dispoziție 4 designeri cu care să comunicăm ce anume avem nevoie.

Securitate

Pentru o firmă care are anumite “secrete” de business, nu văd de ce ai folosi un model cloud US sau China. Efectiv nu ai niciun fel de garanție a siguranței informațiilor pe care le introduci în sistem.

Sunt sigur că tot ce pui este folosit pentru a antrena modelele mai departe și indiferent ce asigurare îți oferă, undeva probabil există o clauză prin care le-ai dat voie să facă asta.

Instituții de stat, bănci, companiile din domenii medicale sau din alte domenii cheie, nu cred că ar trebui să folosească AI în felul ăsta.

În continuare e uluitor că toate guvernele au folosit Microsoft până acum pentru sistem de operare și alte aplicații, în timp ce ei sifonau informațiile prin servere in US.

Local

Cred că modelele locale ar fi fost și mai populare dacă nu am fi avut o criză a memoriilor RAM în momenul ăsta care o să dureze până la final de an sau poate mai mult. Cam aceeași situație e și cu GPU, nu găsești ceva la un preț rezonabil.

AMD și alții au modele de mini PC cu foarte mult RAM, gândite exact pentru a fi folosite cu LLM local folosind memoria în mod unificat.

Iar selecția de modele open source pe care le poți instala este foarte mare.

De multe ori tot ce ai nevoie e un autocomplete pe steroizi, nu să îți facă toată aplicația dintr-un prompt.

Dar e incredibil de scump să iei ceva cu mai mult RAM acum, de exemplu laptop-ul meu e mai scump acum decât anul trecut când l-am cumpărat, multă lume e nevoită să folosească modelele din cloud pe bază de subscripție.

Variante mici și specializate

Nu cred că ai nevoie de LLM-uri care să facă totul bine. Nu am înțeles de ce toate companiile closed source se bat pentru a face un model care să performeze la toate testele și nu avem lucruri separate.

O variantă ar fi că poate totuși modelele alea closed source au un număr de parametrii activi care sunt activați în funcție de task-ul la care sunt puse și atunci da, e un singur model, doar doar o parte din el e activă când request-ul e pe parte de programare și poate altă parte când ai nevoie de un plan de marketing.

Însă cred că pentru a fi mai eficient din punct de vedere al costurilor, eu aș prefera să am un model care știu că e dedicat pentru programare și pentru ăla plătesc sau pe el îl am local instalat și conectat cu VSCode.

Ar fi mai ușor și mai ieftin de antrenat, ar costa mai puțin când îl folosești, dar din cauză că OpenAI și Anthropic se luptă ca să se listeze la final de an, avem modelele astea care sunt scumpe și sunt bune la tot.

Mistral

Cumva voiam să ajung și la Mistral pentru că mi se pare un caz interesant. Nu au avut niște modele de top până acum, dar au fost destul de decente. Nu ai cum să concurezi cu US sau China când nu ai nici banii lor și încerci să mai respecți și drepturile de autor când vine vorba de datele folosite pentru antrenare.

Ce au făcut ei în schimb a fost diversificare cu o mulțime de modele care sunt specializate pentru diverse lucruri și pe care le poți folosi pentru acele acțiuni specifice.

Eu folosesc deja de destul de multă vreme Le Chat pentru chestii mai generale, iar API-ul lor cu modelul Small 4 sau Medium pentru o aplicație care are un bot integrat să verifice niște conținut. Nu e Claude, dar e îndeajuns de bun, nu face totul din prima, dar poți să o scoți la capăt.

Acum cu modelul mai nou, Medium 3.5 se apropie sau depăsește în anumite situații Sonnet 4.5. Deja în punctul ăsta, dacă comparațiile rezistă și în practică nu doar în simulări, avem un model european care chiar poate fi folosit ca alternativă pentru variantele US. Ce lipsește e o integrade bună cu VSCode. Poți folosi Mistral Vibe care are una dintre cele mai mișto pagini de prezentare. Cine a făcut designul pentru Mistral a nimerit-o!

Un alt lucru interesant mi se pare Forge, tot de la ei, pentru a crea modele special antrenate pe informațiile pe care clientul le are. Și pare să fie un fel de serviciu pentru instituții și companii care sunt axate pe securitate. La final îl hostezi și nu depinzi de un provider care e în cloud unde nu îl poți controla. Astfel ai control absolut asupra informațiilor care intră și ies din sistem.