§ tools · storyline

llama.cpp b9244

llama.cpp b9244 adds MoE support for q4_k, q5_k, and q6_k quantisation formats on Adreno GPUs via OpenCL.

yesterday · 05:39:52 · primary fetch1 sourceupdated yesterday · 06:13:15

opencl: add MoE support for q4_k, q5_k, q6_k on Adreno (#23303) opencl: add q4_k moe support opencl: add q5_k moe support opencl: add q6_k moe support opencl: adjust format --------- Co-authored-by: Li He macOS/iOS: macOS Apple Silicon (arm64) macOS Apple Silicon (arm64, KleidiAI enabled) macOS Intel (x64) iOS XCFramework Linux: Ubuntu x64 (CPU) Ubuntu arm64 (CPU) Ubuntu s390x (CPU) Ubuntu x64 (Vulkan) Ubuntu arm64 (Vulkan) Ubuntu x64 (ROCm 7.2) Ubuntu x64 (OpenVINO) Ubuntu x64 (SYCL FP32) Ubuntu x64 (SYCL FP16) Android: Android arm64 (CPU) Windows: Windows x64 (CPU) Windows arm64 (CPU) Windows x64 (CUDA 12) - CUDA 12.4 DLLs Windows x64 (CUDA 13) - CUDA 13.1 DLLs Windows x64 (Vulkan) Windows x64 (SYCL) Windows x64 (HIP) openEuler: openEuler x86 (310p) openEuler x86 (910b, ACL Graph) openEuler aarch64 (310p) openEuler aarch64 (910b, ACL Graph)

read full article on github.com ↗

§ sources5 publications · timeline below

github.comllama.cpp b9244primary05:39:52
github.comllama.cpp b924506:13:15
github.comllama.cpp b924305:08:36
github.comllama.cpp b923505:04:33
github.comllama.cpp b923904:42:47

§ how this story moved

04:42:47primary — llama.cpp — Releases publishes the launch post.
05:04:33llama.cpp — Releases picks up coverage.
05:08:36llama.cpp — Releases picks up coverage.
05:39:52llama.cpp — Releases picks up coverage.
06:13:15llama.cpp — Releases picks up coverage.