XAIGPUARC /// Modelle die nicht funktioniert haben, funktionieren nun dank eigenem Flash Attention und Scheduler Kern.

Die neueste Version meines KI Programmes ist nun soweit, das der Flash Attention Kernel und der neue Scheduler Kernel ihre Arbeit ausführen.

Entsprechend ihrer Funktion, kann nun mehr Speicher im Cache verwaltet werden, als mit den öffentlichen Versionen von Llama.cpp und den jeweiligen Hardwareherstellern.

Mein Prgramm funktioniert auf CUDA, Vulkan und jetzt eben SYCL ARC Selfmade.

Interessenten wissen wie man Emails schreibt oder mich hier anfragt, um entsprechende neue Versionen als Interessentengeschenk zu erhalten.

Die Github Version ist Gut genug, für alle anderen und unterscheidet sich in den Leistungsdetails nur um etwa 5-10%, sowie der Tatsache, das sie keine eigenen FA und Scheduler Kerne besitzt und die Öffentlichen Versionen von Llama.cpp nutzt.

Meine Arbeiten habe ich seit über einer Woche nicht unterbrochen und entsprechende Fortschritte gemacht auch beim Lernen.

Man kann das Ding nicht einfach so Neu Programmieren, ohne zu Wissen, was ich weis.

Die Patchlogik sieht Verrückt aus, ist aber der Kern der Kerne sozusagen. Ohne diese Logik, funktioniert das vorgegebene Ziel nicht. Vielleicht wird hier nachgearbeitet von den eigentlichen Profis und man kann auf so eine Logik verzichten. Ich vermute aber, das ich mir nicht genau daran umsonst ein halbes Jahr die Zähne ausgebissen habe.

;-)

Salve

Alucian