Questa settimana sto leggendo i whitepaper sui protocolli di addestramento AI decentralizzati/in stile swarm e sono sbalordito da ciò che non c'è: il determinismo.
L'inferenza della GPU è notoriamente inaffidabile: piccoli riordini fp32, atomiche nelle convoluzioni, down-cast di tensor-core, competizioni multi-stream: tutto si somma a logit diversi nello "stesso" passaggio forward. La letteratura è piena di soluzioni alternative (modalità deterministiche cuDNN, kernel ticket-lock, build di engine congelati), ma niente di tutto ciò compare nei patinati articoli di dtrain.
Perché dovrebbe importare? Se ogni peer in una mesh sputa gradienti leggermente diversi, buona fortuna a raggiungere un consenso onchain o a dimostrare un contributo onesto. I costi di verifica esplodono, la logica di slashing si rompe e l'intero slogan "addestramento con fiducia minimizzata" inizia a sembrare più un ideale che un'implementazione.
Quindi, crypto-ml twitter: chi sta effettivamente affrontando il non determinismo in un ambiente distribuito e avversario? Qualche articolo/blog che dovrei leggere? Analogie con altri layer di consenso? Lasciate i link qui sotto