Diese Woche lese ich die Whitepapers für Schwarmstil- / dezentrale KI-Trainingsprotokolle und bin erstaunt über das, was nicht darin enthalten ist: Determinismus.

GPU-Inferenz ist berüchtigt unzuverlässig - winzige FP32-Neuordnungen, Atomiken in Faltungsschichten, Tensor-Core-Abwärtskonvertierungen, Multi-Stream-Rennen - all das summiert sich zu unterschiedlichen Logits beim "gleichen" Vorwärtsdurchlauf. Die Literatur ist voller Umgehungslösungen (cuDNN-deterministische Modi, Ticket-Lock-Kernel, gefrorene Engine-Bauten), doch nichts davon findet sich in den glänzenden DTrain-Papieren.

Warum sollte es einen interessieren? Wenn jeder Peer in einem Mesh leicht unterschiedliche Gradienten ausspuckt, viel Glück beim Erreichen eines On-Chain-Konsenses oder beim Nachweisen eines ehrlichen Beitrags. Die Verifizierungskosten explodieren, Logikbrüche werden durchtrennt und der ganze Slogan "vertrauensminimiertes Training" beginnt sich mehr wie ein Ideal als wie eine Umsetzung anzufühlen.

Also, Crypto-ML Twitter: Wer geht tatsächlich das Problem der Nicht-Determinismus in einem verteilten, adversarialen Umfeld an? Gibt es irgendwelche Papiere / Blogs, die ich lesen sollte? Analogie zu anderen Konsensschichten? Links bitte unten ablegen.