Optimization on Sange Mehrab

Optimization on Sange Mehrabhttps://anwarshamim01.github.io/Sang_e_Mehrab/tags/optimization/Recent content in Optimization on Sange MehrabHugoen-usFri, 01 May 2026 00:00:00 +00001.4 Mathematics of Large Language Models: Training, Inference, Attention, Scaling, and Alignmenthttps://anwarshamim01.github.io/Sang_e_Mehrab/courses/course/chapter-01/section-04/Fri, 01 May 2026 00:00:00 +0000https://anwarshamim01.github.io/Sang_e_Mehrab/courses/course/chapter-01/section-04/A beginner-to-advanced mathematical introduction to LLMs, covering autoregressive language modeling, tokenization, vector embeddings, positional encodings, transformer blocks, attention, softmax, cross-entropy, maximum likelihood, backpropagation, AdamW, scaling laws, compute-optimal training, MoE, efficient attention, KV caching, speculative decoding, quantization, LoRA, RLHF, DPO, PPO, and inference-time reasoning.