AI modelini supermodelə çevirərkən: Niyə Fleek Həqiqi inferensiyaya oynayır
AI sürətini itirmir, çünki dərəcəsizdir.
Sürətini itirir, çünki inferensiyaya xostinq kimi yanaşırıq, mühəndislik kimi deyil.
Burada Fleek çıxır və əslində, düzgün stack təbəqəsinə yönəlir.
Çox platforma model ölçüsü, GPU sayı və ya parlaq benchmark-lara diqqət yetirir. Fleek daha aşağı, daha dərin gedir. Əslində, ən yaxşı mənada köhnəskən kimi. Inferensiyaya kompilyator və avtomatik texniki koordinasiya problemi kimi yanaşır, şəkildən uzaq API qabığı kimi deyil.
Əsas fikir belədir:
Hər təbəqənin eyni dəqiqliyə layiq olmaması lazım deyil.
Tədqiqatlar əsasında Fleek, model arxitekturaları və təbəqələr arasında məlumat sıxlığının fərqləndiyini müəyyən etdi. Beləliklə, hər yerdə eyni dəqiqlik tələb etmək (ki, əslində, ləzgənlikdir) əvəzinə, Fleek hər təbəqədə məlumatın mənəvi dəyərini ölçür və dəqiqliyi dinamik olaraq təyin edir.
Tərcümə etmək olar ki:
Sürət 3 dəfə artır, xərclər 75% aşağı düşür və keyfiyyət itkisi yoxdur—köhnə köməkçiləri kəsmək deyil, səmərəsizliyi kəsmək nəticəsində.
Burada işlər maraqlılaşır.
Dəqiqliyi, cədvəlləşdirməni və kernel seçimi ilə sıx nəzarət edərək, Fleek, çoxlu inferensiyaya struktural olaraq diqqət yetirilməyən performans qazancı əldə edir. Onlar bu fikirə gəlmək üçün qabiliyyətli deyillər, sadəcə bu fikri düşünmək üçün dizayn edilməmişdirlər.
Bu yanaşma genişlənərsə, bu yalnız optimizasiya deyil.
Bu inferensiyanın qurulma üsulunun dəyişdirilməsidir.
Biz böyük modeli ineffektiv proseslərin üzərinə qoymaqda davam edirik və texniki qüvvənin kömək edəcəyinə ümid edirik. Fleek bu məntiqi tərsinə çevirir. İcra yolunu optimallaşdırın, və eyni model bir supermodel kimi davranır—daha az, daha sürətli, daha intellektual.
Bəzən inkişaf yalnız çox şey etmək deyil.
Bu, əslində düzgün şeyləri etməyin vaxtıdır.
#AIInference #ComputeEfficiency #FleekAI