§ feed · storyline

BitNet was a lie?

Research from Chris Re's group across 465 pretraining runs finds quantization benefits plateau at FP6 precision, suggesting diminishing returns for low-bit methods such as BitNet at scale.

Nov 13 · 02:36:06 · primary fetch1 sourceupdated Nov 13 · 02:36:06

Scaling laws for quantization have been modified by a group led by Chris Re, analyzing over 465 pretraining runs and finding benefits plateau at FP6 precision. Lead author Tanishq Kumar highlights that longer training and more data increase sensitivity to quantization, explaining challenges with models like Llama-3. Tim Dettmers, author of QLoRA, warns that the era of efficiency gains from low-precision quantization is ending, signaling a shift from scaling to optimizing existing resources.

Additionally, Alibaba announced Qwen 2.5-Coder-32B-Instruct, which matches or surpasses GPT-4o on coding benchmarks, and open-source initiatives like DeepEval for LLM testing are gaining traction.

read full article on news.smol.ai ↗

§ sources1 publication · timeline below

news.smol.aiBitNet was a lie?primary02:36:06