Binance Square

computeefficiency

229 zobrazení
Diskutuje: 2
koinmilyoner
--
Býčí
Zobrazit originál
Přeměna AI modelů na supermodely: Proč Fleek hraje skutečnou hru s inferencí AI neztrácí rychlost, protože je hloupé. Ztrácí rychlost, protože inferenci považujeme za hostování, nikoli za inženýrství. A právě zde vstupuje Fleek a po pravdě řečeno, cílí přesně na správnou úroveň zásobníku. Většina platform se zaměřuje na velikost modelu, počet GPU nebo zářivé benchmarky. Fleek jde níž. Hlouběji. Téměř staromódně, a to v nejlepším smyslu. Inferenci považuje za problém kompilátoru a koordinace hardwaru, nikoli za zářivý obal API. Zde je klíčový náhled: Ne každá vrstva nemusí mít stejnou přesnost. Díky výzkumu zjistila Fleek, že hustota informací se liší v rámci různých architektur modelů i v rámci jednotlivých vrstev. Proto místo toho, aby se všude vynutila stejná přesnost (což je líné, řekněme si pravdu), Fleek měří obsah informací v každé vrstvě a dynamicky přiřazuje přesnost. Překlad? Získáte inferenci 3× rychlejší, náklady o 75 % nižší a žádnou ztrátu kvality – ne tím, že zanedbáte něco, ale tím, že odstraníte zbytečnosti. Zde se věci stávají zajímavými. Díky přesnému ovládání přesnosti, plánování a výběru jader dosahuje Fleek výkonnostních zisků, které většina rámci inferencí strukturálně ignoruje. Ne proto, že by neuměly, ale protože nikdy nebyly navrženy tak, aby o tom přemýšlely. Pokud se tento přístup rozšíří, nebude jde jen o optimalizaci. Bude jde o změnu způsobu, jak je inferenční systém navržen. Stále jsme stavěli větší modely na neefektivních kanálech, doufali, že výkon hardwaru nám pomůže. Fleek obrátí tuto logiku. Optimalizujte prováděcí cestu a najednou se stejný model chová jako supermodel – štíhlejší, rychlejší, chytřejší. Někdy pokrok není o dělání více. Je o tom, konečně správně udělat věci. #AIInference #ComputeEfficiency #FleekAI
Přeměna AI modelů na supermodely: Proč Fleek hraje skutečnou hru s inferencí

AI neztrácí rychlost, protože je hloupé.

Ztrácí rychlost, protože inferenci považujeme za hostování, nikoli za inženýrství.

A právě zde vstupuje Fleek a po pravdě řečeno, cílí přesně na správnou úroveň zásobníku.

Většina platform se zaměřuje na velikost modelu, počet GPU nebo zářivé benchmarky. Fleek jde níž. Hlouběji. Téměř staromódně, a to v nejlepším smyslu. Inferenci považuje za problém kompilátoru a koordinace hardwaru, nikoli za zářivý obal API.

Zde je klíčový náhled:

Ne každá vrstva nemusí mít stejnou přesnost.

Díky výzkumu zjistila Fleek, že hustota informací se liší v rámci různých architektur modelů i v rámci jednotlivých vrstev. Proto místo toho, aby se všude vynutila stejná přesnost (což je líné, řekněme si pravdu), Fleek měří obsah informací v každé vrstvě a dynamicky přiřazuje přesnost.

Překlad?

Získáte inferenci 3× rychlejší, náklady o 75 % nižší a žádnou ztrátu kvality – ne tím, že zanedbáte něco, ale tím, že odstraníte zbytečnosti.

Zde se věci stávají zajímavými.

Díky přesnému ovládání přesnosti, plánování a výběru jader dosahuje Fleek výkonnostních zisků, které většina rámci inferencí strukturálně ignoruje. Ne proto, že by neuměly, ale protože nikdy nebyly navrženy tak, aby o tom přemýšlely.

Pokud se tento přístup rozšíří, nebude jde jen o optimalizaci.

Bude jde o změnu způsobu, jak je inferenční systém navržen.

Stále jsme stavěli větší modely na neefektivních kanálech, doufali, že výkon hardwaru nám pomůže. Fleek obrátí tuto logiku. Optimalizujte prováděcí cestu a najednou se stejný model chová jako supermodel – štíhlejší, rychlejší, chytřejší.

Někdy pokrok není o dělání více.

Je o tom, konečně správně udělat věci.

#AIInference #ComputeEfficiency #FleekAI
Přihlaste se a prozkoumejte další obsah
Prohlédněte si nejnovější zprávy o kryptoměnách
⚡️ Zúčastněte se aktuálních diskuzí o kryptoměnách
💬 Komunikujte se svými oblíbenými tvůrci
👍 Užívejte si obsah, který vás zajímá
E-mail / telefonní číslo