Jaunākās #computeefficiency ziņas, viedokļi un plūsma šodien

AI modeļu pārveidošana par supermodeļiem: Kāpēc Fleek spēlē patieso inferenci

AI nezaudē ātrumu, jo ir muļķīga.

Tā zaudē ātrumu, jo mēs inferenci uzskatām par hostēšanu, nevis inženierijas problēmu.

Šeit ietekmē Fleek un godīgi sakot, viņi mērķē tieši pareizajā slānī.

Vairums platformu nodarbojas ar modeļa izmēru, GPU skaitu vai spožiem rezultātiem. Fleek iet dziļāk. Vairāk vecmodīgi, bet labi. Viņi uzskata inferenci kā kompilētāja un iekārtas koordinācijas problēmu, nevis glītu API apvalku.

Šeit ir būtiskākais ieraugām:

Nav jēgas piešķirt vienādu precizitāti visām slānīm.

Pētījumos Fleek atklāja, ka informācijas blīvums atšķiras starp dažādiem modeļa arhitektūriem un slāņiem. Tāpēc viņi neuzliek vienādu precizitāti visur (kas ir neveiksmīgi, atzīsim godīgi), bet mēra informācijas saturu katrā slānī un dinamiski piešķir precizitāti.

Tulkot:

Jūs iegūstat 3 reizes ātrāku inferenci, 75% zemākas izmaksas un nekādu kvalitātes zaudējumu — nevis ietaupot uz kvalitātes, bet izmantojot atkritumu iznīcināšanu.

Šeit lietas kļūst interesantākas.

Tieši kontrolējot precizitāti, plānošanu un kodolu izvēli, Fleek atklāj iespējas, ko lielākā daļa inferences ietvaru strukturāli ignorē. Ne tāpēc, ka viņi nav spējīgi, bet tāpēc, ka tie tika izstrādāti, lai domātu citādāk.

Ja šis pieejas veids skalēsies, tas nebūs tikai optimizācija.

Tas būs mainīgums, kā tiek veidota inferencē.

Mēs esam uzlikuši lielākus modeļus uz neefektīviem procesiem, cerot, ka iekārtas spēks mūs glābs. Fleek apgriež šo loģiku. Optimizē izpildes ceļu, un pēkšņi tas pats modelis rīkojas kā supermodelis — plakans, ātrs, gudrs.

Kādreiz progress nav par darīšanu vairāk.

Tas ir par galu galā darīšanu pareizi.

#AIInference #ComputeEfficiency #FleekAI

computeefficiency

Populāras tēmas