DeepSeek, startup-ul chinezesc care dă peste cap industria AI, a lansat două noi modele inteligente – Cum diferă modelele chinezești de cele vestice - 1Romania.net - Știri Verificate și Actualizate din România

DeepSeek, startup-ul chinez de inteligență artificială (AI) care aproape că a revoluționat printr-un singur „foc” gândirea convențională despre costurile de dezvoltare a tehnologiei, a lansat o nouă familie de modele multimodale AI open-source care, susțin chinezii, depășesc pe anumite benchmark-uri cheie performanța modelului DALL-E 3 al OpenAI și a altor modele vestice.

DALL-E 3 este modelul specializat pe crearea de imagini de înaltă calitate al OpenAI, iar un model multimodal este un sistem AI care poate să genereze atât conversații text și imagini, cât și să analizeze imagini și să ofere o interpretare a lor.

Denumit Janus Pro, modelul variază de la 1 miliard (extrem de mic) la 7 miliarde de parametri și este disponibil pentru descărcare gratuită pe platforma de știință a datelor și dezvoltare AI Hugging Face. Comparativ, modelul DeepSeek R1, care este lăudat zilele acestea drept „momentul Sputnik în domeniul intelegenței artificiale”, are 671 miliarde de parametri, ceea ce îi conferă anumite abilități de raționalizare și rezolvare a unor probleme superioare.

Cum diferă modelele chinezești de cele vestice

Pe anumite benchmark-uri ale industriei (GenEval și DPG-Bench), modelul Janus Pro 7B, cel mai mare din perspectiva parametrilor din rândul celor două proaspăt lansate, ar depăși la performanțe nu doar DALL-E 3 al OpenAI, dar și alte modele de top precum PixArt-alpha, Emu3-Gen și Stable Diffusion XL, conform informațiilor împărtășite de DeepSeek.

Comparativ, alte modele, precum Flux, Stable Diffusion XL, nu pot decât să genereze imagini. Modelele noi ale DeepSeek sunt astfel mai versatile la bază, dar nu excelează la task-uri specifice, cum o fac modelele specializate, de exemplu, pe generarea de imagini.

Lansarea celor două modele vine la doar câteva zile după ce DeepSeek a făcut valuri cu modelul R1, care a egalat capacitățile GPT-4, cu un cost al dezvoltării de doar 5 milioane de dolari. Lansarea modelului chinezesc de AI a declanșat o dezbatere intensă în industria AI, în condițiile în care procesul de dezvoltare până acum a presupus investiții imense în centre de date și resurse de energie pentru rularea și antrenarea sistemelor AI.

Comparativ cu sistemele vestice, modelul DeepSeek R1 nu folosește toți parametri la un nivel constant, ceea ce reduce consumul de energie, ci ține mare parte din parametri în rezervă pentru când are nevoie să îi folosească, specific. În funcție de cerințe. Totodată, DeepSeek susține că a folosit mult mai puține chip-uri, nu doar chip-uri mai vechi, iar faptul că modelele sunt open-source (pot fi downloadate și reproduse sau îmbunătățite) contrastează puternic cu abordarea americană, axată pe comercializare și profitabilitate.

Se ascute lupta AI: Momentul Sputnik pentru Inteligența Artificială

Competiția pe zona AI s-a întețit în ultimele luni. Într-un document de politică publicat săptămâna trecută, OpenAI a îndemnat guvernul SUA să sprijine dezvoltarea inteligenței artificiale americane, pentru a evita ca modelele chinezești să le egaleze sau să le depășească în capacitate.

Modelul Janus Pro al DeepSeek folosește ceea ce compania numește un „cadru autoregresiv inovator” care decuplează codificarea vizuală în căi separate, menținând în același timp o arhitectură unificată de transformatori. Acest design permite modelului să analizeze și să genereze imagini la o rezoluție de 768×768.

„Janus Pro depășește modelul anterior și se aliniază sau depășește performanța modelelor specifice sarcinilor”, susține DeepSeek în documentația sa de lansare. „Simplitatea, flexibilitatea ridicată și eficiența lui Janus Pro îl fac un candidat puternic pentru modelele multimodale unificate de generație următoare”.

Potrivit specialiștilor în generative AI, modelul oferă o înțelegere vizuală bună, cu descrieri relativ exacte ale elementelor dintr-o fotografie și o înțelegere pozitivă a relației și spațiului dintre obiecte, dar este încă în urmă comparativ cu modelul GPT Vision, care are o înțelegere analitică mai mare când vine vorba de task-uri vizuale care necesită logică. Pe de altă parte, generarea de imagini pare robustă și relativ exactă, dar pentru rezultate bune are nevoie de prompt-uri foarte clare.

Notă: O comparație directă realizată de Decrypt.co între imaginile generate de Janus și modelul Stable Diffusion XL pentru promptul: Un pui de vulpe drăguț cu ochi mari, căprui, frunze de toamnă în fundal, încântător, nemuritor, cu blană pufoasă și strălucitoare, petale, foarte detaliat, fotorealist, cinematic, culori naturale.

Deși modelul Janus a respectat prompt-ul (pui de vulpe), modelul Stable Diffusion XL a generat o imagine mai calitativă din punctul de vedere al realismului și al detaliilor.